女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE 成績(jī)超越GPT-4,免費(fèi)可用

數(shù)據(jù)分析與開(kāi)發(fā) ? 來(lái)源:機(jī)器之心 ? 2023-07-14 15:21 ? 次閱讀

此次,Claude 2 除了一大波能力上的升級(jí),更重要的是大家都可以用了。

今日,那個(gè)被很多網(wǎng)友稱(chēng)為「ChatGPT 最強(qiáng)競(jìng)品」的人工智能系統(tǒng) Claude 迎來(lái)了版本大更新。 Claude 2 正式發(fā)布! 據(jù)介紹,Claude 2 在編寫(xiě)代碼、分析文本、數(shù)學(xué)推理等方面的能力得到加強(qiáng),并且可以產(chǎn)生更長(zhǎng)的響應(yīng)。 更重要的是,用戶(hù)可以在新的 beta 網(wǎng)站上免費(fèi)試用,并且 Claude 2 商用 API 的價(jià)格與 1.3 版本相同。

ead08c98-21f9-11ee-962d-dac502259ad0.png

機(jī)器之心在此前的文章中多次介紹過(guò) Claude,它是由 OpenAI 離職人員創(chuàng)建的 Anthropic 公司打造的。在 ChatGPT 發(fā)布兩個(gè)月后,該公司就迅速開(kāi)發(fā)出了 Claude,可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問(wèn)答、編碼等任務(wù)。 之后持續(xù)升級(jí),五月份通過(guò) 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴(kuò)展到了 100k。 現(xiàn)在終于迎來(lái)了大版本更新。Anthropic 表示,Claude 2 基于此前從用戶(hù)那里獲得的反饋建議進(jìn)行改進(jìn)。 接下來(lái)看各方面能力細(xì)節(jié)。 Claude 2 在哪些方面得到了加強(qiáng)? 總的來(lái)說(shuō),Claude 2 注重提高以下能力:

Anthropic 致力于提高 Claude 作為編碼助理的能力,Claude 2 在編碼基準(zhǔn)和人類(lèi)反饋評(píng)估方面性能顯著提升。

長(zhǎng)上下文(long-context)模型對(duì)于處理長(zhǎng)文檔、少量 prompt 以及使用復(fù)雜指令和規(guī)范進(jìn)行控制特別有用。Claude 的上下文窗口從 9K token 擴(kuò)展到了 100K token(Claude 2 已經(jīng)擴(kuò)展到 200K token,但目前發(fā)布版本僅支持 100K token)。

以前的模型經(jīng)過(guò)訓(xùn)練可以編寫(xiě)相當(dāng)短的回答,但許多用戶(hù)要求更長(zhǎng)的輸出。Claude 2 經(jīng)過(guò)訓(xùn)練,可以生成最多 4000 個(gè) token 的連貫文檔,相當(dāng)于大約 3000 個(gè)單詞。

Claude 通常用于將長(zhǎng)而復(fù)雜的自然語(yǔ)言文檔轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)格式。Claude 2 經(jīng)過(guò)訓(xùn)練,可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。

雖然 Claude 的訓(xùn)練數(shù)據(jù)仍然主要是英語(yǔ),但 Claude 2 的訓(xùn)練數(shù)據(jù)中非英語(yǔ)數(shù)據(jù)比例已經(jīng)明顯增加。

Claude 2 的訓(xùn)練數(shù)據(jù)包括 2022 年和 2023 年初更新的數(shù)據(jù)。這意味著它知道最近發(fā)生的事件,但它仍然可能會(huì)產(chǎn)生混淆。

該研究進(jìn)行了一系列評(píng)估實(shí)驗(yàn)來(lái)測(cè)試 Claude 2 的性能水平,包括對(duì)齊評(píng)估和能力評(píng)估兩部分。 在模型對(duì)齊方面,該研究針對(duì)大模型的三個(gè)關(guān)鍵要求做了具體評(píng)估,包括:遵循指令、生成內(nèi)容有用(helpfulness);生成內(nèi)容無(wú)害(harmlessness);生成內(nèi)容準(zhǔn)確、真實(shí)(honesty)。 人類(lèi)反饋評(píng)估 大模型在生成過(guò)程中應(yīng)該遵循人類(lèi)提供的指令,這將讓生成結(jié)果符合要求、實(shí)際有用。針對(duì)這一點(diǎn),該研究對(duì) Claude 2、Claude 1.3 和 Claude Instant 1.1 進(jìn)行了實(shí)驗(yàn)評(píng)估,并使用經(jīng)典的對(duì)弈水平評(píng)估指標(biāo) ——Elo 分?jǐn)?shù),幾個(gè)模型的評(píng)估結(jié)果如下圖 1 所示:

eb0c2ba4-21f9-11ee-962d-dac502259ad0.png

偏見(jiàn)評(píng)估 Bias Benchmark for QA(BBQ)是用于評(píng)估模型對(duì)人群偏見(jiàn)的常用基準(zhǔn)。該研究在 BBQ 基準(zhǔn)上進(jìn)行實(shí)驗(yàn)評(píng)估,幾種模型的實(shí)驗(yàn)結(jié)果如下圖 2 所示:

eb3112c0-21f9-11ee-962d-dac502259ad0.png

下圖 3 顯示了在消除歧義的語(yǔ)境下幾種模型回答 BBQ 基準(zhǔn)中問(wèn)題的準(zhǔn)確性。值得注意的是,Claude 模型的準(zhǔn)確率會(huì)比 Helpful-Only 模型低是因?yàn)槟P蜁?huì)拒絕回答一些存在偏見(jiàn)的問(wèn)題。

eb4aef38-21f9-11ee-962d-dac502259ad0.png

事實(shí)性評(píng)估 大模型有時(shí)會(huì)生成虛假混亂的信息,因此測(cè)試模型生成內(nèi)容的事實(shí)性非常重要。TruthfulQA 是一個(gè)用于評(píng)估語(yǔ)言模型在對(duì)抗性環(huán)境中輸出的準(zhǔn)確性和真實(shí)性的基準(zhǔn),幾種模型的測(cè)試結(jié)果如下圖 4 所示:

eb6fc27c-21f9-11ee-962d-dac502259ad0.png

總的來(lái)說(shuō),Claude 2 在 HHH(在有用性(helpfulness)、無(wú)害性(harmlessness)、事實(shí)性(honesty)、)評(píng)估上的總體表現(xiàn)如下圖 6 所示:

eb9818da-21f9-11ee-962d-dac502259ad0.png

在能力評(píng)估方面,該研究針對(duì)多語(yǔ)言翻譯任務(wù)、上下文窗口、標(biāo)準(zhǔn)基準(zhǔn)評(píng)估、資格水平考試幾個(gè)方面對(duì) Claude 2 展開(kāi)評(píng)估實(shí)驗(yàn)。 多語(yǔ)言翻譯 該研究選擇涵蓋 200 多種語(yǔ)言的翻譯基準(zhǔn) Flores 200 來(lái)評(píng)估 Claude 2 的多語(yǔ)言翻譯能力,其中包括低資源語(yǔ)言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評(píng)估結(jié)果如下圖 7 所示:

ebd3c4c0-21f9-11ee-962d-dac502259ad0.png

上下文窗口 今年早些時(shí)候,研究團(tuán)隊(duì)將 Claude 的上下文窗口從 9K token 擴(kuò)展到了 100K token,現(xiàn)在 Claude 2 進(jìn)一步擴(kuò)展了上下文窗口, 達(dá)到 200K token,相當(dāng)于約 150000 個(gè)單詞。 為了證明 Claude 2 會(huì)實(shí)際使用完整的上下文,該研究測(cè)量了每個(gè) token 位置的損失,平均超過(guò) 1000 個(gè)長(zhǎng)文檔,如下圖 8 所示:

ebf39da4-21f9-11ee-962d-dac502259ad0.png

不過(guò),研究團(tuán)隊(duì)表示目前發(fā)布的版本僅支持 100K token 的上下文窗口,完整的上下文窗口將會(huì)集成到他們的產(chǎn)品中。 標(biāo)準(zhǔn)基準(zhǔn)評(píng)估 該研究在幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)上評(píng)估測(cè)試了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函數(shù)合成的 Codex HumanEval、用于解決小學(xué)數(shù)學(xué)問(wèn)題的 GSM8k、用于多學(xué)科問(wèn)答的 MMLU、針對(duì)長(zhǎng)故事問(wèn)答的 QuALITY、用于科學(xué)問(wèn)題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學(xué)水平閱讀理解與推理的 RACE-H,具體的評(píng)估結(jié)果如下表所示:

ec0a6278-21f9-11ee-962d-dac502259ad0.png

值得注意的是,Claude 2 生成代碼的能力有了明顯的提升,在 Codex HumanEval 上的得分從 56% 上升到 71.2%。 資格水平考試 該研究還用幾個(gè)常見(jiàn)資格水平考試的題目測(cè)試了 Claude 2 的實(shí)際能力。 首先,Claude 2 在美國(guó)律師資格考試(Bar Exam)的多項(xiàng)選擇題測(cè)試中得分率為 76.5%,高于 Claude 1.3 的 73.0%。

ec328bfe-21f9-11ee-962d-dac502259ad0.png

其次,研究團(tuán)隊(duì)還用美國(guó)研究生入學(xué)考試(GRE)測(cè)試了 Claude 2 的能力水平,Claude 2 在 GRE 閱讀和寫(xiě)作考試中的得分高于 90%,在定量推理方面與達(dá)到了參加 GRE 考試的考生的中位數(shù)水平。

ec4477e2-21f9-11ee-962d-dac502259ad0.png

最后,該研究還在美國(guó)醫(yī)師執(zhí)照考試(USMLE)題目上測(cè)試了 Claude 2:

ec51e8c8-21f9-11ee-962d-dac502259ad0.png

Anthropic 表示,人工智能寫(xiě)作平臺(tái) Jasper 和代碼導(dǎo)航工具 Sourcegraph 等公司已開(kāi)始將 Claude 2 納入其運(yùn)營(yíng)中。 官方示例及試用體驗(yàn) 我們先看 Anthropic 提供的一些官方示例。 1、編碼能力:為靜態(tài)地圖添加交互式數(shù)據(jù)。 2、文本處理能力:總結(jié)文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能,可以在 prompt 窗口上傳幾百頁(yè)的文檔。 除了以上,機(jī)器之心也嘗試了一些文本分析、數(shù)學(xué)推理和編寫(xiě)代碼方面的示例。

ec6792ea-21f9-11ee-962d-dac502259ad0.png

試用地址:http://claude.ai 首先讓 Claude 2 以目錄形式總結(jié)一下「Claude 2 技術(shù)文檔」的要點(diǎn),總結(jié)得非常詳細(xì),對(duì)我們寫(xiě)這篇文章有幫助。

ec75281a-21f9-11ee-962d-dac502259ad0.png

再來(lái)兩道數(shù)學(xué)推理題,Claude 2 只用一次就能搞定。

ecbf69fc-21f9-11ee-962d-dac502259ad0.png

eced1dd4-21f9-11ee-962d-dac502259ad0.png

最后測(cè)一些代碼題,生成、檢查和補(bǔ)全代碼都不在話(huà)下。

ed19ff66-21f9-11ee-962d-dac502259ad0.png

ed53cdcc-21f9-11ee-962d-dac502259ad0.png

edab8012-21f9-11ee-962d-dac502259ad0.png

不過(guò),Claude 2 仍不具備生成圖片的多模態(tài)能力。

edebff02-21f9-11ee-962d-dac502259ad0.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48677

    瀏覽量

    246316
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4886

    瀏覽量

    70234
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1586

    瀏覽量

    8785

原文標(biāo)題:ChatGPT 最強(qiáng)競(jìng)品 Claude2 來(lái)了:代碼、GRE 成績(jī)超越 GPT-4,免費(fèi)可用

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開(kāi)發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IT崗位天塌了!Claude 4震撼發(fā)布:AI編程大模型再進(jìn)化

    Claude Opus 4Claude Sonnet 4。這兩個(gè)模型旨在更好地遵循指令,在編寫(xiě)代碼、解答復(fù)雜問(wèn)題等任務(wù)中,能夠更自主
    的頭像 發(fā)表于 05-26 07:52 ?4568次閱讀
    IT崗位天塌了!<b class='flag-5'>Claude</b> <b class='flag-5'>4</b>震撼發(fā)布:AI編程大模型再進(jìn)化

    Claude 3.7:編碼助手首選,claude api key如何申請(qǐng)獲取與深度解析*

    Claude 3.7,這款被譽(yù)為“混合推理”先鋒的AI模型迅速成為開(kāi)發(fā)者社區(qū)的焦點(diǎn)。它巧妙地結(jié)合快速代碼生成和深度
    的頭像 發(fā)表于 03-24 09:43 ?730次閱讀
    <b class='flag-5'>Claude</b> 3.7:編碼助手首選,<b class='flag-5'>claude</b> api key如何申請(qǐng)獲取與深度解析*

    ChatGPT Plus 2025新功能搶先看:如何訂閱與使用全攻略

    的交互 ChatGPT Plus作為付費(fèi)訂閱服務(wù),提供一系列增強(qiáng)功能和優(yōu)勢(shì),讓用戶(hù)體驗(yàn)更上一層樓: 更強(qiáng)模型驅(qū)動(dòng) (GPT-4及更高版本): ?訂閱用戶(hù)可訪問(wèn)性能更強(qiáng)、回答更準(zhǔn)確、對(duì)話(huà)能力更復(fù)雜的模型(如
    的頭像 發(fā)表于 02-13 19:59 ?706次閱讀

    解鎖 GPT-4o!2024 ChatGPT Plus 代升級(jí)全攻略(附國(guó)內(nèi)支付方法)

    ChatGPT Plus 每月 20 美元,OpenAI 承諾 Plus 用戶(hù)享有更快的響應(yīng)速度、優(yōu)先使用新功能及最新模型,包括強(qiáng)大的 GPT-4o。本文將分享 2024 年 ChatGPT
    的頭像 發(fā)表于 10-29 18:17 ?2151次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見(jiàn)證一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來(lái)革命性的變化。在這場(chǎng)技術(shù)競(jìng)賽中,Llama 3和GPT-4作為兩個(gè)備受矚目的模型,它們代表了當(dāng)前AI領(lǐng)域的最前
    的頭像 發(fā)表于 10-27 14:17 ?1030次閱讀

    如何使用 ChatGPT 進(jìn)行內(nèi)容創(chuàng)作

    ChatGPT平臺(tái)。 選擇模型 : ChatGPT目前支持GPT3.5和GPT4兩個(gè)模型。根據(jù)創(chuàng)作需求,選擇合適的模型。一般來(lái)說(shuō),GPT4
    的頭像 發(fā)表于 10-25 16:08 ?893次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過(guò)GPT-4 Turbo,數(shù)學(xué)能力和代碼能力更是超過(guò)了Open AI最新一代GPT模型GPT-4o。此外,其效率相對(duì)提升50%。
    的頭像 發(fā)表于 10-24 11:39 ?914次閱讀

    OpenAI提前解鎖GPT-4o語(yǔ)音模式,引領(lǐng)對(duì)話(huà)新紀(jì)元

    OpenAI近日宣布一項(xiàng)令人振奮的消息:即日起,部分ChatGPT Plus用戶(hù)將率先體驗(yàn)到GPT-4o的語(yǔ)音模式,這一創(chuàng)新功能標(biāo)志著自然語(yǔ)言處理與人工智能交互技術(shù)邁出了重要一步。GPT-4
    的頭像 發(fā)表于 08-01 18:24 ?1438次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定價(jià)為每百萬(wàn)輸入標(biāo)記15美分和每百萬(wàn)輸出標(biāo)記60美分,比之前的前沿模型便宜一個(gè)數(shù)量級(jí),比GPT-3.5 Turbo便宜
    的頭像 發(fā)表于 07-21 10:20 ?1581次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能<b class='flag-5'>超越</b><b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI GPT-5:未來(lái)已來(lái),但何時(shí)降臨

    在人工智能領(lǐng)域的浩瀚星空中,OpenAI無(wú)疑是那顆最為耀眼的星辰。自其誕生以來(lái),每一次的技術(shù)革新都牽動(dòng)著全球科技愛(ài)好者的心弦。特別是當(dāng)GPT-4在今年5月14日凌晨悄然降臨,以其強(qiáng)大的語(yǔ)言理解和生成能力,再次刷新人們對(duì)于人工智能的認(rèn)知邊界后,關(guān)于下一代大語(yǔ)言模型
    的頭像 發(fā)表于 07-03 15:51 ?554次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯(cuò)

    基于GPT-4的模型——CriticGPT,這款模型專(zhuān)為捕獲ChatGPT代碼輸出中的錯(cuò)誤而設(shè)計(jì),其獨(dú)特的作用在于,讓人們能夠用GPT-4來(lái)
    的頭像 發(fā)表于 06-29 09:55 ?780次閱讀

    OpenAI API Key獲取:開(kāi)發(fā)人員申請(qǐng)GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語(yǔ)言理解和生成能力,成為了許多開(kāi)發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項(xiàng)目,如開(kāi)發(fā)一個(gè)ChatGPT聊天應(yīng)用,不僅是實(shí)踐人工智能技術(shù)
    的頭像 發(fā)表于 06-24 17:40 ?3624次閱讀
    OpenAI API Key獲取:開(kāi)發(fā)人員申請(qǐng)<b class='flag-5'>GPT-4</b> API Key教程

    Anthropic 發(fā)布Claude 3.5 Sonnet模型運(yùn)行速度是Claude 3 Opus的兩倍

    Anthropic 發(fā)布Claude 3.5 Sonnet最新模型 新模型在推理、知識(shí)和編碼能力評(píng)估方面超越以前的版本和競(jìng)爭(zhēng)對(duì)手GPT 4
    的頭像 發(fā)表于 06-21 15:43 ?1307次閱讀
    Anthropic 發(fā)布<b class='flag-5'>Claude</b> 3.5 Sonnet模型運(yùn)行速度是<b class='flag-5'>Claude</b> 3 Opus的兩倍

    OpenAI競(jìng)爭(zhēng)對(duì)手Anthropic發(fā)布最強(qiáng)大模型Claude 3.5 Sonnet

    AI在不斷加速演進(jìn)中;各個(gè)巨頭也是你追我趕, 今年3月,Anthropic推出了Claude 3系列模型; OpenAI在5月份推出了GPT-4o。 6月Anthropic又推出了Claude
    的頭像 發(fā)表于 06-21 14:52 ?1194次閱讀

    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開(kāi)發(fā)教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的強(qiáng)大工具,可用于自然語(yǔ)言處理和多模態(tài)任務(wù)。在國(guó)內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細(xì)介紹GPT-4o模型以及如何獲取
    的頭像 發(fā)表于 06-08 00:33 ?6832次閱讀
    國(guó)內(nèi)直聯(lián)使用<b class='flag-5'>ChatGPT</b> 4.0 API Key使用和多模態(tài)<b class='flag-5'>GPT4</b>o API調(diào)用開(kāi)發(fā)教程!