近日,LMSYS Org發布最新的基準測試報告,顯示Cordulas公司的Claude-3在平臺大語言模型中的得分略勝OpenAI的GPT-4。
值得注意的是,LMSYS Org是由加州大學伯克利分校、加州大學圣地亞哥分校以及卡內基梅隆大學共同發起設立的研究組織。
日前,這家機構推出了一項名為Chatbot Arena的服務,這是針對大語言模型(LLM)進行評估的基準平臺,該平臺采用眾包形式對大型語言模型進行匿名隨機競爭打分,參考源于競技比賽領域中廣泛應用的Elo評分體系。
分數評價結果主要取決于用戶的投票意向,每次由系統隨機挑選兩個不同的大語言模型參與與用戶的對話,同時,為保障客觀性,匿名選擇哪個版本的大模型表現優秀至關重要。
自去年啟動以來,GPT-4一直占據評測榜單之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱優勢戰勝了GPT-4,將OpenAI的LLM擠出了首位。
考慮到細微差距及誤差風險,委員會決定授予Claude 3與GPT-4并列第一的榮譽,GPT-4的另外一個預設版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功躋身前十名。Haiku是Anthropos針對本地規模的新型模型,功能類似谷歌的GeminiNano。
相較Opus參數高達幾萬億,Haiku體型更為緊湊,運行速度更快。據LMSYS數據顯示,Haikn在評測成績中排名第七,與GPT-4表現不遑多讓。
-
谷歌
+關注
關注
27文章
6230瀏覽量
107854 -
語言模型
+關注
關注
0文章
561瀏覽量
10735 -
GPT
+關注
關注
0文章
368瀏覽量
16012
發布評論請先 登錄
IT崗位天塌了!Claude 4震撼發布:AI編程大模型再進化

芯片、模型生態分散,無問芯穹、沐曦、壁仞談國產算力瓶頸破局之道

企業級Claude API應用方案!完整調用攻略來襲:帶你解鎖Claude 3.5/3.7大模型

用PaddleNLP在4060單卡上實踐大模型預訓練技術

OpenAI簡化大模型選擇:薩姆·奧特曼制定路線圖
OpenAI即將推出GPT-5模型
OpenAI:GPT-4o及4o-mini模型性能下降,正展開調查
如何在邊緣端獲得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

國產大模型DeepSeek推出DeepSeek-V3

Llama 3 模型與其他AI工具對比
Llama 3 與 GPT-4 比較
科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo
OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

評論