女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大語言模型“書生·浦語”多項(xiàng)專業(yè)評測拔頭籌

商湯科技SenseTime ? 來源:未知 ? 2023-08-25 13:00 ? 次閱讀
最近,AI大模型測評火熱,尤其在大語言模型領(lǐng)域,“聰明”的上限不斷刷新。

商湯與上海AI實(shí)驗(yàn)室等聯(lián)合打造的大語言模型“書生·浦語”(InternLM)也表現(xiàn)出色,分別在智源FlagEval大語言模型評測8月排行榜中文通用大模型綜合性評測基準(zhǔn)SuperCLUE 7月評測榜兩項(xiàng)業(yè)內(nèi)權(quán)威大模型評測榜單中獲得優(yōu)異成績。 FlagEval是知名人工智能新型研發(fā)機(jī)構(gòu)北京智源人工智能研究院推出的大模型評測體系及開放平臺(tái)。FlagEval大模型評測體系構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評測框架,可視化呈現(xiàn)評測結(jié)果,總計(jì)600+評測維度,包括22個(gè)主觀、客觀評測數(shù)據(jù)集,84433道評測題目。除知名的公開數(shù)據(jù)集 HellaSwag、MMLU、C-Eval外,F(xiàn)lagEval還集成了包括智源自建的主觀評測數(shù)據(jù)集Chinese Linguistics & Cognition Challenge (CLCC),北京大學(xué)等單位共建的詞匯級別語義關(guān)系判斷、句子級別語義關(guān)系判斷、多義詞理解、修辭手法判斷評測數(shù)據(jù)集。
SuperCLUE是由創(chuàng)立于2019年的CLUE學(xué)術(shù)社區(qū)最新發(fā)布的中文通用大模型綜合性評測基準(zhǔn),包含SuperCLUE-Opt客觀題測試、SuperCLUE-Open主觀題測試、SuperCLUE-LYB瑯琊榜用戶投票的匿名對戰(zhàn)測試三大基準(zhǔn)組成。為更好地反映國內(nèi)大模型與國際領(lǐng)先大模型間的差距和優(yōu)勢,SuperCLUE選取了多個(gè)國內(nèi)外有代表性的可用模型進(jìn)行評測,同時(shí)由于其數(shù)據(jù)集保密性高,對大模型來說是‘閉卷考試’,減少了模型訓(xùn)練數(shù)據(jù)混入評測數(shù)據(jù)的可能性。此外,SuperCLUE還通過自動(dòng)化評測方式測試不同模型效果,可一鍵對大模型進(jìn)行評測,相對更客觀。 “書生·浦語”:不僅善于考試,還是開源大模型中的佼佼者

“書生·浦語”,是商湯科技、上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)打造的大語言模型,具有千億參數(shù),在包含1.8萬億token的高質(zhì)量語料上訓(xùn)練而成。

今年6月,“書生·浦語”聯(lián)合團(tuán)隊(duì)曾選取20余項(xiàng)評測進(jìn)行檢驗(yàn),包括全球最具影響力的四個(gè)綜合性考試評測。結(jié)果顯示,“書生·浦語”在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中超越ChatGPT。(詳情可參考AI考生今日抵達(dá),商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型報(bào)道) 7月,“書生·浦語”正式開源70億參數(shù)的輕量級版本InternLM-7B。(https://github.com/InternLM/InternLM)

后續(xù)又推出升級版對話模型InternLM-Chat-7Bv1.1,成為首個(gè)具有代碼解釋能力的開源對話模型,能根據(jù)需要靈活調(diào)用Python解釋器等外部工具,解決復(fù)雜數(shù)學(xué)計(jì)算等任務(wù)的能力顯著提升。

此外,該模型還可通過搜索引擎獲取實(shí)時(shí)信息,提供具有時(shí)效性的回答。

在北京智源人工智能研究院FlagEval大語言模型評測體系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分別在監(jiān)督微調(diào)模型(SFT Model)榜單、基座模型(Base Model)榜單中取得第一和第二名

“InternLM-chat-7B”還刷新中英客觀評測記錄。 「什么是“基座模型”、“有監(jiān)督微調(diào)模型”?」 基座模型(Base Model)是經(jīng)過海量數(shù)據(jù)預(yù)訓(xùn)練(Pre-train)得到的,它具備一定的通用能力,比如:GPT-3。 有監(jiān)督微調(diào)模型(SFT Model)則是經(jīng)過指令微調(diào)數(shù)據(jù)(包含了各種與人類行為及情感相關(guān)的指令和任務(wù)的數(shù)據(jù)集)訓(xùn)練后得到的,具備了與人類流暢對話的能力,如:ChatGPT。 普遍的觀點(diǎn)認(rèn)為,基座模型在很大程度上決定了微調(diào)模型的能力。 因此,F(xiàn)lagEval大語言模型評測體系針對基座模型的評測主要從“提示學(xué)習(xí)評測”和“適配評測”兩方面進(jìn)行;針對有監(jiān)督微調(diào)模型的評測則從“復(fù)用針對基座模型的客觀評測” 進(jìn)一步增加“引入主觀評測”。 此次兩個(gè)榜單中,“InternLM-chat-7B”和“InternLM-7B”均表現(xiàn)出優(yōu)異的綜合性能,超越備受關(guān)注的Llama2-chat-13B/7B和Llama2-13B/7B 特別在SFT Model測試中,InternLM-chat-7B中文能力大幅領(lǐng)先同時(shí),英文能力也與對手保持在相近水平,展現(xiàn)出更強(qiáng)的實(shí)用性能 wKgZomToSjaAS-sLAAFBK8bU_fs988.jpgwKgZomToSjaAaVfdAAEPh3f12d8810.jpg ?

SuperCLUE評測從基礎(chǔ)能力、專業(yè)能力、中文特性能力三個(gè)不同維度對國內(nèi)外通用大模型產(chǎn)品進(jìn)行評價(jià),考察大模型在70余個(gè)任務(wù)上的綜合表現(xiàn)。

“書生·浦語”InternLM-chat-7B在7月公布SuperCLUE評測榜單中表現(xiàn)出色,SuperCLUE-Opt開源大模型榜單拔得頭籌 wKgZomToSjaACTy0AAQPBYmSqG8574.png ?作為SuperCLUE綜合性三大基準(zhǔn)之一,SuperCLUE-Opt評測基準(zhǔn)每期有3700+道客觀題(選擇題),由基礎(chǔ)能力(10個(gè)子任務(wù))、中文特性能力(10個(gè)子任務(wù))、學(xué)術(shù)專業(yè)能力(50+子任務(wù))組成,采用封閉域測試方式。 相比第二名ChatGLM2-6B,InternLM-chat-7B主要在學(xué)術(shù)專業(yè)方面取得較大領(lǐng)先,同時(shí)全面領(lǐng)先于第三名Baichuan-13B-Chat。

wKgZomToSjaAH4hcAAATzh3tzFA763.gif

相關(guān)閱讀,戳這里

讓大模型“百花齊放”,商湯大裝置SenseCore提供一片沃土

《商湯發(fā)布多模態(tài)多任務(wù)通用大模型“書生2.5”》

《商湯聯(lián)合發(fā)布通才AI智能體通關(guān)<我的世界>》

wKgZomToSjaAQE8DAAC4LKEIjVg960.jpg


原文標(biāo)題:大語言模型“書生·浦語”多項(xiàng)專業(yè)評測拔頭籌

文章出處:【微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    552

    瀏覽量

    36651

原文標(biāo)題:大語言模型“書生·浦語”多項(xiàng)專業(yè)評測拔頭籌

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?325次閱讀

    云知聲山海大模型多項(xiàng)評測名列前茅

    近日,智源研究院發(fā)布并解讀了國內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言模型綜合及專項(xiàng)評測結(jié)果。
    的頭像 發(fā)表于 12-24 10:29 ?428次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?457次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?592次閱讀

    名單公布!【書籍評測活動(dòng)NO.52】基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化

    這樣的應(yīng)用還遠(yuǎn)遠(yuǎn)不能發(fā)揮出大模型的真正價(jià)值,我們期望大模型在更專業(yè)的生產(chǎn)領(lǐng)域發(fā)揮作用,提升生產(chǎn)力,引領(lǐng)真正的科技變革。 當(dāng)前大模型被普遍看好的兩個(gè)
    發(fā)表于 12-04 10:50

    語言模型如何開發(fā)

    語言模型的開發(fā)是一個(gè)復(fù)雜且細(xì)致的過程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段。以下是對大語言模型開發(fā)步驟的介紹,由AI部
    的頭像 發(fā)表于 11-04 10:14 ?527次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其一貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語言模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位,更將語言的支持范圍大幅擴(kuò)展,涵蓋了俄語、日語、阿拉伯
    的頭像 發(fā)表于 10-24 13:58 ?781次閱讀

    云知聲山海大模型多項(xiàng)能力全球領(lǐng)跑

    國內(nèi)人工智能權(quán)威機(jī)構(gòu)清華大學(xué)基礎(chǔ)模型研究中心發(fā)布SuperBench九月綜合榜單。本次評測選取海內(nèi)外24個(gè)具有代表性的大模型,結(jié)果顯示,山海大模型對齊、智能體、安全等
    的頭像 發(fā)表于 10-12 14:30 ?748次閱讀
    云知聲山海大<b class='flag-5'>模型</b><b class='flag-5'>多項(xiàng)</b>能力全球領(lǐng)跑

    名單公布!【書籍評測活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

    工作日內(nèi)未聯(lián)系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對其需求設(shè)計(jì)的算力及基礎(chǔ)架構(gòu)。本書針對如何為大模型構(gòu)建基礎(chǔ)架構(gòu)進(jìn)行深入
    發(fā)表于 08-16 18:33

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點(diǎn)、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資
    發(fā)表于 07-25 14:33

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

    松。 入門篇主要偏應(yīng)用,比如大語言模型的三種交互方式,分析了提示工程、工作記憶和長短期記憶,此篇最后講了ChatGPT的接口和擴(kuò)展功能應(yīng)用,適合大語言模型應(yīng)用技術(shù)人員閱讀。 進(jìn)階篇就非
    發(fā)表于 07-21 13:35

    語言模型的預(yù)訓(xùn)練

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)作為人工智能領(lǐng)域的一個(gè)重要分支,取得了顯著的進(jìn)步。其中,大語言模型(Large Language Model, LLM)憑借其強(qiáng)大的語言
    的頭像 發(fā)表于 07-11 10:11 ?882次閱讀

    坤川大模型智能體平臺(tái)亮相2024世界人工智能大會(huì)

    坤川大模型智能體平臺(tái)兼容多種多尺寸的大語言模型及多模態(tài)模型,并可以使用訓(xùn)推平臺(tái)組件進(jìn)行模型
    的頭像 發(fā)表于 07-09 14:38 ?431次閱讀
    視<b class='flag-5'>語</b>坤川大<b class='flag-5'>模型</b>智能體平臺(tái)亮相2024世界人工智能大會(huì)

    模型助力國際術(shù)語專業(yè)化,前后聯(lián)動(dòng)實(shí)現(xiàn)所見即所得

    、西班牙、法語、德語、越南。其中每個(gè)語言包的詞條都有上萬條,且隨著新需求的開發(fā)迭代也在不斷的新增,語言包的不斷擴(kuò)展和詞條的不斷增加,詞條翻譯的簡潔性、
    的頭像 發(fā)表于 06-21 17:37 ?691次閱讀
    大<b class='flag-5'>模型</b>助力國際術(shù)語<b class='flag-5'>專業(yè)</b>化,前后聯(lián)動(dòng)實(shí)現(xiàn)所見即所得

    語言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始,先來整體理解一下大語言模型。一、發(fā)展歷史大
    的頭像 發(fā)表于 06-04 08:27 ?1662次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)快速理解