女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對標OpenAI GPT-4,MiniMax國內首個MoE大語言模型全量上線

jf_WZTOguxH ? 來源:AI前線 ? 2024-01-16 15:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 月 16 日,InfoQ 獲悉,經過了半個月的部分客戶的內測和反饋,MiniMax 全量發布大語言模型 abab6,該模型為國內首個 MoE(Mixture-of-Experts)大語言模型。

早在上個月舉辦的數字中國論壇成立大會暨數字化發展論壇的一場分論壇上,MiniMax 副總裁魏偉就曾透露將于近期發布國內首個基于 MoE 架構的大模型,對標 OpenAI GPT-4。

在 MoE 結構下,abab6 擁有大參數帶來的處理復雜任務的能力,同時模型在單位時間內能夠訓練足夠多的數據,計算效率也可以得到大幅提升。改進了 abab5.5 在處理更復雜、對模型輸出有更精細要求場景中出現的問題。 為什么選擇 MoE 架構?

那么,MoE 到底是什么?MiniMax 的大模型為何要使用使用 MoE 架構?

MoE 架構全稱專家混合(Mixture-of-Experts),是一種集成方法,其中整個問題被分為多個子任務,并將針對每個子任務訓練一組專家。MoE 模型將覆蓋不同學習者(專家)的不同輸入數據。

621db644-b431-11ee-8b88-92fbcf53809c.png

圖片來源:https ://arxiv.org/pdf/1701.06538.pdf

有傳聞稱,GPT-4 也采用了相同的架構方案。

2023 年 4 月,MiniMax 發布了開放平臺。過去半年多,MiniMax 陸續服務了近千家客戶,包括金山辦公、小紅書、騰訊、小米和閱文在內的多家頭部互聯網公司,MiniMax 開放平臺平均單日的 token 處理量達到了數百億。

MiniMax 在官微中發文稱:“這半年多來,客戶給我們提供了很多有價值的反饋和建議。例如,大家認為我們做得比較好的地方有:在寫作、聊天、問答等場景中,abab5.5 的表現不錯,達到了 GPT-3.5 的水平。”

但是和最先進的模型 GPT-4 相比,仍有明顯差距。這主要體現在處理更復雜的、對模型輸出有精細要求的場景時,存在一定概率違反用戶要求的輸出格式,或是在推理過程中發生錯誤。當然,這不僅是 abab5.5 的問題,也是目前除 GPT-4 以外,幾乎所有大語言模型存在的缺陷。

為了解決這個問題,進一步提升模型在復雜任務下的效果,MiniMax 技術團隊從去年 6 月份起開始研發 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已應用于其 C 端產品中)。

雖然MiniMax 并未透露Abab6 的具體參數,但據MiniMax 透露,Abab6 比上一個版本大了一個量級。更大的模型意味著 abab6 可以更好的從訓練語料中學到更精細的規律,完成更復雜的任務。

但僅擴大參數量會帶來新的問題:降低模型的推理速度以及更慢的訓練時間。在很多應用場景中,訓練推理速度和模型效果同樣重要。為了保證 abab6 的運算速度,MiniMax 技術團隊使用了 MoE (Mixture of Experts 混合專家模型)結構。在該結構下,模型參數被劃分為多組“專家”,每次推理時只有一部分專家參與計算。基于 MoE 結構,abab6 可以具備大參數帶來的處理復雜任務的能力;計算效率也會得到提升,模型在單位時間內能夠訓練足夠多的數據。

目前大部分大語言模型開源和學術工作都沒有使用 MoE 架構。為了訓練 abab6,MiniMax 還自研了高效的 MoE 訓練和推理框架,也發明了一些 MoE 模型的訓練技巧。到目前為止,abab6 是國內第一個千億參數量以上的基于 MoE 架構的大語言模型。

測評結果

為了對比各模型在復雜場景下的表現,MiniMax 對 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用進行了自動評測。在簡單的任務上,abab5.5 已經做得比較好,因此 MiniMax 選擇了三種涵蓋了較復雜的問題的評測方法:

IFEval:這個評測主要測試模型遵守用戶指令的能力。在測試時,提問者會問模型一些帶有約束條件的問題,例如“以 XX 為標題,列出三個具體對方法,每個方法的描述不超過兩句話”,然后統計有多少回答嚴格滿足了約束條件。

MT-Bench:這個評測衡量模型的英文綜合能力。提問者會問模型多個類別的問題,包括角色扮演、寫作、信息提取、推理、數學、代碼、知識問答。MiniMax 技術團隊會用另一個大模型(GPT-4)對模型的回答打分,并統計平均分。

AlignBench:該評測反映了模型的中文綜合能力測試,測試形式與 MT-Bench 類似。

測評及對比結果如下:

6221c5d6-b431-11ee-8b88-92fbcf53809c.png

注:對比模型均選擇各自最新、效果最好的版本,分別為 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 號的版本。

可以看出,abab6 在三個測試集中均明顯好于前一代模型 abab5.5。在指令遵從、中文綜合能力和英文綜合能力上,abab6 大幅超過了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵從、中文綜合能力和英文綜合能力上略勝一籌。相較于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵從和中文綜合能力上都優于 Mistral-Medium,在英文綜合能力上與 Mistral- Medium 旗鼓相當。

如果想體驗 MiniMax MoE 大模型,可訪問 MiniMax 開放平臺官網:api.minimax.chat

ps:MiniMax 方面稱,模型還在持續訓練中,遠沒有收斂,歡迎大家反饋。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10791
  • OpenAI
    +關注

    關注

    9

    文章

    1210

    瀏覽量

    8921
  • 大模型
    +關注

    關注

    2

    文章

    3146

    瀏覽量

    4072

原文標題:對標OpenAI GPT-4,MiniMax 國內首個 MoE 大語言模型全量上線

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    OpenAI簡化大模型選擇:薩姆·奧特曼制定路線圖

    前的技術環境下,大模型被廣泛應用于各種聊天機器人中,其中OpenAI的ChatGPT就是一個典型的例子。然而,對于大多數用戶來說,選擇最適合自己需求的AI模型卻并非易事。OpenAI
    的頭像 發表于 02-18 09:12 ?501次閱讀

    OpenAI宣布GPT 4o升智計劃

    近日,全球領先的人工智能公司OpenAI迎來了一項重要宣布。OpenAI的首席執行官Sam Altman正式揭曉了GPT 4o的升智計劃,這一消息立即引起了業界的廣泛關注。 據Sam
    的頭像 發表于 02-17 14:24 ?595次閱讀

    OpenAI即將發布GPT-4.5與GPT-5

    GPT-4.5將在未來幾周內率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術上進行了諸多優化和升級,旨在為用戶提供更加精準、高效的AI服務。 而在
    的頭像 發表于 02-13 13:43 ?644次閱讀

    OpenAI即將推出GPT-5模型

    OpenAI首席執行官奧爾特曼近日宣布了一項重要消息:OpenAI將在今年未來幾個月內推出全新的GPT-5模型。這一消息引起了業界的廣泛關注和期待。 據了解,
    的頭像 發表于 02-13 11:21 ?593次閱讀

    OpenAI報告GPT-4o及4o-mini模型性能下降,正緊急調查

    ,自發現這一問題以來,公司已經迅速啟動了內部調查機制,以盡快查明導致模型性能下降的具體原因。OpenAI強調,他們對此次事件高度重視,并將全力以赴解決這一問題,以確保用戶能夠繼續享受到高質量的AI服務。 GPT-4o和
    的頭像 發表于 01-23 10:22 ?840次閱讀

    OpenAIGPT-4o及4o-mini模型性能下降,正展開調查

    ,并承諾將盡快發布最新的調查結果和解決方案。這一事件不僅對OpenAI自身的技術聲譽產生了影響,也引發了業界對于大型語言模型穩定性和可靠性的擔憂。 GPT-4o及
    的頭像 發表于 01-21 10:34 ?661次閱讀

    解鎖 GPT-4o!2024 ChatGPT Plus 代升級全攻略(附國內支付方法)

    ChatGPT Plus 每月 20 美元,OpenAI 承諾 Plus 用戶享有更快的響應速度、優先使用新功能及最新模型,包括強大的 GPT-4o。本文將分享 2024 年 ChatGPT
    的頭像 發表于 10-29 18:17 ?2499次閱讀

    Llama 3 與 GPT-4 比較

    沿。 一、技術架構 Llama 3和GPT-4都是基于深度學習的自然語言處理(NLP)模型,但它們的設計理念和技術細節有所不同。 Llama 3 采用了一種創新的混合架構,結合了傳統的Transformer
    的頭像 發表于 10-27 14:17 ?1153次閱讀

    科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過GPT-4 Turbo,數學能力和代碼能力更是超過了Open AI最新一代GPT模型GPT-4o。此外,其效率相對提升50%。
    的頭像 發表于 10-24 11:39 ?1079次閱讀

    OpenAI即將發布“草莓”推理大模型

    科技界迎來新動態,據可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發布——預計在兩周內,將正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務中。這款以卓越推理能力為核心的大模型,旨在突破現有
    的頭像 發表于 09-11 16:53 ?821次閱讀

    OpenAI宣布啟動GPT Next計劃

     9月4日最新資訊,OpenAI Japan 在KDDI峰會上亮相,揭開了其即將問世的下一代AI模型的神秘面紗,并正式宣布了旨在2024年啟動的GPT Next宏偉計劃。
    的頭像 發表于 09-04 14:51 ?935次閱讀

    OpenAI api key獲取并可調用GPT-4.0、GPT-4o、GPT-4omini

    前言 在這篇文章中,我們將詳細介紹如何申請OpenAIGPT-4.0 API Key。通過這個教程,你將能夠輕松獲取OpenAI API KEY并使用GPT-4.0的強大功能。 目錄
    的頭像 發表于 08-06 15:16 ?4557次閱讀
    <b class='flag-5'>OpenAI</b> api key獲取并可調用<b class='flag-5'>GPT</b>-4.0、<b class='flag-5'>GPT-4</b>o、<b class='flag-5'>GPT-4</b>omini

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該
    的頭像 發表于 07-21 10:20 ?1687次閱讀
    <b class='flag-5'>OpenAI</b> 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI發布高性價比小型AI模型GPT-4o mini

    在人工智能領域持續創新的OpenAI,近日推出了其最新力作——“GPT-4o mini”,一款旨在以親民價格提供強大功能的小型聊天機器人。這款產品的問世,標志著OpenAI在推動人工智能普及與多模態融合方面邁出了重要一步。
    的頭像 發表于 07-19 15:27 ?982次閱讀

    OpenAI發布最新人工智能模型——GPT-4o mini

    據國際媒體報道,OpenAI 在周四震撼發布了其最新的人工智能模型——GPT-4o mini,此舉標志著這家領先的AI初創公司在拓寬其廣受歡迎的聊天機器人應用領域方面邁出了重要一步。
    的頭像 發表于 07-19 15:24 ?1557次閱讀