BigCode 是一個開放的科學合作組織,致力于開發大型語言模型。
近日他們開源了一個名為 SantaCoder 的語言模型,該模型擁有 11 億個參數,可以用于 Python、Java 和 JavaScript 這幾種編程語言的代碼生成和補全建議。
根據官方提供的信息,訓練 SantaCoder 的基礎是 The Stack(v1.1)數據集,SantaCoder 雖然規模相對較小,只有 11 億個參數,在參數的絕對數量上低于 InCoder(67 億)或 CodeGen-multi(27 億),但 SantaCoder 的表現則是要遠好于這些大型多語言模型。
不過也正是參數遠遠不及 GPT-3 等參數超過千億級別的超大型語言模型,SantaCoder 適用的編程語言范圍也比較有限,僅支持 Python、Java 和 JavaScript 三種語言。
為了照顧用戶隱私和保證訓練質量,在訓練模型之前,BigCode 注釋了 400 個樣本,并建立和不斷完善 RegEx 規則,以便在訓練前從數據集的代碼中刪除諸如電子郵件地址、密鑰和 IP 地址等敏感信息。
為了讓開發者可以放心使用 SantaCoder 生成的代碼,BigCode 推出了Dataset Search搜索工具。
通過這個工具,開發者可以找出代碼的來源,以便在 SantaCoder 產生的代碼屬于某一個項目的情況下,用戶能夠遵守相應的許可要求。
此外,BigCode 還推出了「Am I in The Stack?」工具,開發者可以檢查自己名下的倉庫是否是訓練數據集的一部分,可以將自己的開源倉庫從數據集中刪除。
BigCode 目前已經在 Huggingface 網站中提供了 SantaCoder 演示。
審核編輯:劉清
-
JAVA語言
+關注
關注
0文章
138瀏覽量
20510 -
javascript
+關注
關注
0文章
525瀏覽量
54492 -
python
+關注
關注
56文章
4823瀏覽量
86160 -
GPT
+關注
關注
0文章
368瀏覽量
15930
原文標題:BigCode開源輕量級語言模型,僅支持Python、JS和Java
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
輕量級Java表達式引擎aviator的基本使用
輕量級Agent平臺怎么測試?
輕量級的ui框架如何去制作
后端選擇 java, 還是 python?
適用于Java的嵌入式腳本語言是什么
Lite Actor:方舟Actor并發模型的輕量級優化
最流行的編程語言java,python

基于YOLO改進的輕量級交通標識檢測模型

評論