今年 2 月份,機(jī)器之心報(bào)道了復(fù)旦大學(xué)推出中國(guó)版 ChatGPT 的消息,引起了廣泛關(guān)注。當(dāng)時(shí),邱錫鵬教授就曾表示將于四月份開(kāi)源 Moss。
昨天,開(kāi)源版的 Moss 真的來(lái)了。
項(xiàng)目地址:https://github.com/OpenLMLab/MOSS
MOSS 是一個(gè)支持中英雙語(yǔ)和多種插件的開(kāi)源對(duì)話(huà)語(yǔ)言模型,但參數(shù)數(shù)量比 ChatGPT 少得多。在 v0.0.2 之后,團(tuán)隊(duì)持續(xù)對(duì)其進(jìn)行調(diào)整,推出了 MOSS v0.0.3,也就是目前開(kāi)源的版本。相比于早期版本,功能也實(shí)現(xiàn)了多項(xiàng)更新。
最初的測(cè)試中,MOSS 的基礎(chǔ)功能與 ChatGPT 類(lèi)似,可以按照用戶(hù)輸入的指令完成各類(lèi)自然語(yǔ)言處理任務(wù),包括文本生成、文本摘要、翻譯、代碼生成、閑聊等等。
開(kāi)放內(nèi)測(cè)后,團(tuán)隊(duì)繼續(xù)加大中文語(yǔ)料的預(yù)訓(xùn)練:「截止目前,MOSS 003 的基座語(yǔ)言模型已經(jīng)在 100B 中文 token 上進(jìn)行了訓(xùn)練,總訓(xùn)練 token 數(shù)量達(dá)到 700B,其中還包含約 300B 代碼。」
在開(kāi)放內(nèi)測(cè)后,我們也收集了一些用戶(hù)數(shù)據(jù),我們發(fā)現(xiàn)真實(shí)中文世界的用戶(hù)意圖和 OpenAI InstructGPT 論文中披露的 user prompt 分布有較大差異(這不僅與用戶(hù)來(lái)自的國(guó)家差異有關(guān),也跟產(chǎn)品上線(xiàn)時(shí)間有關(guān),早期產(chǎn)品采集的數(shù)據(jù)中存在大量對(duì)抗性和測(cè)試性輸入),于是我們以這部分真實(shí)數(shù)據(jù)作為 seed 重新生成了約 110 萬(wàn)常規(guī)對(duì)話(huà)數(shù)據(jù),涵蓋更細(xì)粒度的 helpfulness 數(shù)據(jù)和更廣泛的 harmlessness 數(shù)據(jù)。
內(nèi)容來(lái)源:https://www.zhihu.com/question/596908242/answer/2994534005
目前,團(tuán)隊(duì)已將 moss-moon-003-base、moss-moon-003-sft、moss-moon-003-sft-plugin 三個(gè)模型上傳到 HuggingFace。后續(xù),還有三個(gè)模型將會(huì)開(kāi)源。
根據(jù)項(xiàng)目主頁(yè)介紹,moss-moon 系列模型具有 160 億參數(shù),在 FP16 精度下可在單張 A100/A800 或兩張 3090 顯卡運(yùn)行,在 INT4/8 精度下可在單張 3090 顯卡運(yùn)行。
團(tuán)隊(duì)同時(shí)表示,由于模型參數(shù)量較小和自回歸生成范式,MOSS 仍然可能生成包含事實(shí)性錯(cuò)誤的誤導(dǎo)性回復(fù)或包含偏見(jiàn) / 歧視的有害內(nèi)容,請(qǐng)謹(jǐn)慎鑒別和使用 MOSS 生成的內(nèi)容,請(qǐng)勿將 MOSS 生成的有害內(nèi)容傳播至互聯(lián)網(wǎng)。
新增能力
在 MOSS v0.0.3 中,團(tuán)隊(duì)加入了多項(xiàng)新能力。
團(tuán)隊(duì)構(gòu)造了約 30 萬(wàn)插件增強(qiáng)的對(duì)話(huà)數(shù)據(jù),包含搜索引擎、文生圖、計(jì)算器、方程求解等。關(guān)于插件版 MOSS 如何使用,后續(xù)團(tuán)隊(duì)將在 GitHub 公布。
MOSS v0.0.3 現(xiàn)已引入使用多種插件的能力。
下圖展示了調(diào)用搜索引擎的能力:
下圖展示了調(diào)用方程求解器的能力:
下圖展示了從文本生成圖片的能力:
項(xiàng)目作者孫天祥補(bǔ)充說(shuō),MOSS 003 支持啟用插件的能力是通過(guò) meta instruction 來(lái)控制,類(lèi)似 gpt-3.5-turbo 里的 system prompt。「因?yàn)槭悄P涂刂频模圆⒉荒鼙WC 100% 控制率,以及還存在一些多選插件時(shí)調(diào)用不準(zhǔn)、插件互相打架的缺陷,我們正在盡快開(kāi)發(fā)新的模型來(lái)緩解這些問(wèn)題。」
下載安裝
下載本倉(cāng)庫(kù)內(nèi)容至本地 / 遠(yuǎn)程服務(wù)器:
git clone https://github.com/OpenLMLab/MOSS.gitcd MOSS
創(chuàng)建 conda 環(huán)境:
conda create --name moss python=3.8 conda activate moss
安裝依賴(lài):
pip install -r requirements.txt
其中 torch 和 transformers 版本不建議低于推薦版本。
根據(jù)協(xié)議,開(kāi)源的 MOSS 可用于商業(yè)用途:
此外,開(kāi)發(fā)者也可通過(guò) API 調(diào)用 MOSS 服務(wù),團(tuán)隊(duì)將根據(jù)當(dāng)前服務(wù)壓力考慮通過(guò) API 接口形式提供服務(wù),接口格式可參考:https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf
目前,已有開(kāi)發(fā)者根據(jù)開(kāi)源內(nèi)容進(jìn)行而創(chuàng),比如通過(guò) VideoChat 進(jìn)行視頻問(wèn)答。
VideoChat 是一款多功能視頻問(wèn)答工具,結(jié)合了動(dòng)作識(shí)別、視覺(jué)字幕和 StableLM 的功能。該工具可為視頻中的任何對(duì)象和動(dòng)作生成密集的描述性字幕,提供一系列語(yǔ)言風(fēng)格以滿(mǎn)足不同的用戶(hù)偏好。它支持用戶(hù)進(jìn)行不同長(zhǎng)度、情緒、語(yǔ)言真實(shí)性的對(duì)話(huà)。
項(xiàng)目地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS
審核編輯 :李倩
-
開(kāi)源
+關(guān)注
關(guān)注
3文章
3612瀏覽量
43488 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
558瀏覽量
10674 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1588瀏覽量
8802
原文標(biāo)題:160億參數(shù),新增多項(xiàng)能力,復(fù)旦MOSS開(kāi)源了
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
億緯鋰能八款開(kāi)源電池王牌產(chǎn)品重磅發(fā)布
EL3041 DIP-6 EVERLIGHT/億光雙向可控硅-EL3041光耦詳細(xì)參數(shù)
智融科技再獲多項(xiàng)殊榮
光峰科技為2025款問(wèn)界M9供應(yīng)智能激光投影巨幕系統(tǒng)2.0
開(kāi)放原子開(kāi)源基金會(huì)新增捐贈(zèng)人一覽
衢州季豐新增參數(shù)特色檢測(cè)能力氨氣測(cè)試
開(kāi)源鴻蒙5.0 Release版本關(guān)鍵特性解讀
SOLIDWORKS 2025設(shè)計(jì)新增功能
SOLIDWORKS 2025引入了多項(xiàng)新增工具和增強(qiáng)功能
騰訊混元大模型上線(xiàn)并開(kāi)源文生視頻能力
中國(guó)移動(dòng)與中國(guó)石油發(fā)布700億參數(shù)昆侖大模型
AMD發(fā)布10億參數(shù)開(kāi)源AI模型OLMo
復(fù)旦微榮獲ISO26262:2018功能安全ASIL B產(chǎn)品認(rèn)證證書(shū)

云知聲山海大模型多項(xiàng)能力全球領(lǐng)跑

評(píng)論