女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為諾亞提出新型Prompting (PHP),GPT-4拿下最難數(shù)學(xué)推理數(shù)據(jù)集新SOTA

深度學(xué)習(xí)自然語言處理 ? 來源:機器之心 ? 2023-05-15 09:23 ? 次閱讀

模擬人類推理過程,華為諾亞提出 Progressive-Hint Prompting (PHP) 引導(dǎo)大模型漸近正確答案。

近期,華為聯(lián)和港中文發(fā)表論文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出Progressive-Hint Prompting(PHP),用來模擬人類做題過程。在 PHP 框架下,Large Language Model (LLM) 能夠利用前幾次生成的推理答案作為之后推理的提示,逐步靠近最終的正確答案。要使用 PHP,只需要滿足兩個要求:

問題能夠和推理答案進行合并,形成新的問題;

模型可以處理這個新的問題,給出新的推理答案。

f62ed04a-f2b5-11ed-90ce-dac502259ad0.png

結(jié)果表明,GP-T-4+PHP 在多個數(shù)據(jù)集上取得了SOTA結(jié)果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。該方法大幅超過 GPT-4+CoT。比如,在現(xiàn)在最難的數(shù)學(xué)推理數(shù)據(jù)集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 數(shù)據(jù)集的 Nember Theory (數(shù)論) 子集提升 6.1%, 將 MATH 整體提升到 53.9%,達到 SOTA。

f64b6552-f2b5-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2304.09797

代碼鏈接:https://github.com/chuanyang-Zheng/Progressive-Hint

介紹

隨著 LLM 的發(fā)展,涌現(xiàn)了關(guān)于 prompting 的一些工作,其中有兩個主流方向:

一個以 Chain-Of-Thought( CoT,思維鏈) 為代表,通過清楚得寫下推理過程,激發(fā)模型的推理能力;

另一個以 Self-Consistency (SC) 為代表,通過采樣多個答案,然后進行投票得到最終答案。

顯然,現(xiàn)存的兩種方法,沒有對問題進行任何的修改,相當于做了一遍題目之后就結(jié)束了,而沒有反過來帶著答案進行再次檢查。PHP 嘗試模擬更加類人推理過程:對上次的推理過程進行處理,然后合并到初始的問題當中,詢問 LLM 進行再次推理。當最近兩次推理答案一致時,得到的答案是準確的,將返回最終答案。具體的流程圖如下所示:

f66dfed2-f2b5-11ed-90ce-dac502259ad0.png

在第一次與 LLM 交互的時候,應(yīng)當使用 Base Prompting (基礎(chǔ)提示), 其中的 prompt(提示)可以是 Standard prompt,CoT prompt 或者其改進版本。通過 Base Prompting,可以進行第一次交互,然后得到初步的答案。在隨后的交互中,應(yīng)當使用 PHP,直至最新的兩個答案一致。

PHP prompt 基于 Base Prompt 進行修改。給定一個 Base Prompt,可以通過制定的 PHP prompt design principles 來得到對應(yīng)的 PHP prompt。具體如下圖所示:

f6908a6a-f2b5-11ed-90ce-dac502259ad0.png

作者希望PHP prompt能夠讓大模型學(xué)習(xí)到兩種映射模式:

1)如果給的 Hint 是正確答案,那么返回的答案依然要是正確答案 (具體如上圖所示的「Hint is the correct answer」);
2)如果給的 Hint 是錯誤答案,那么 LLM 要通過推理,跳出錯誤答案的 Hint,返回正確答案(具體如上圖所示的「Hint is the incorrect answer」)。

按照這種 PHP prompt 的設(shè)計規(guī)則,給定任意現(xiàn)存的 Base Prompt,作者都可以設(shè)定出對應(yīng)的 PHP Prompt。

實驗

作者使用七個數(shù)據(jù)集,包括 AddSub、MultiArith、SingleEQ、SVAMP、GSM8K、 AQuA 和 MATH。同時,作者一共使用了四個模型來驗證作者的想法,包括 text-davinci-002、text-davinci-003、GPT-3.5-Turbo 和 GPT-4。

主要結(jié)果

f6b09ac6-f2b5-11ed-90ce-dac502259ad0.png

當語言模型更強大、提示更有效時,PHP 的效果更好。相比于 Standard Prompt 和 CoT Prompt,Complex CoT prompt 表現(xiàn)出了顯著的性能提升。分析還顯示,使用強化學(xué)習(xí)進行微調(diào)的 text-davinci-003 語言模型比使用監(jiān)督指令微調(diào)的 text-davinci-002 模型表現(xiàn)更好,能夠提升文檔效果。text-davinci-003 的性能提高歸因于其增強的能力,使其更好地理解和應(yīng)用給定的提示。同時,如果只是使用 Standard prompt,那么 PHP 所帶來的提升并不明顯。如果需要讓 PHP 起到效果,至少需要 CoT 來激發(fā)模型的推理能力。

f6cefff2-f2b5-11ed-90ce-dac502259ad0.png

同時,作者也探究了交互次數(shù)與模型、prompt 之間的關(guān)系。當語言模型更強大,提示更弱時,交互次數(shù)會減少。交互次數(shù)指代智能體與 LLMs 互動的次數(shù)。當收到第一個答案時,交互次數(shù)為 1;收到第二個答案時,交互次數(shù)增加到 2。在圖 2 中,作者展示了各種模型和提示的交互次數(shù)。作者的研究結(jié)果表明:

1)在給定相同提示的情況下,text-davinci-003 的交互次數(shù)通常低于 text-davinci-002。這主要是由于 text-davinci-003 的準確性更高,導(dǎo)致基礎(chǔ)答案和后續(xù)答案的正確率更高,因此需要更少的交互才能得到最終的正確答案;
2)當使用相同的模型時,隨著提示變得更強大,交互次數(shù)通常會增加。這是因為當提示變得更有效時,LLMs 的推理能力會得到更好的發(fā)揮,從而使它們能夠利用提示跳出錯誤答案,最終導(dǎo)致需要更高的交互次數(shù)才能達到最終答案,這使得交互次數(shù)增加。

Hint 質(zhì)量的影響

f705f89a-f2b5-11ed-90ce-dac502259ad0.png

為了增強 PHP-Standard 的性能,將 Base Prompt Standard 替換為 Complex CoT 或 CoT 可以顯著提高最終性能。對 PHP-Standard 而言,作者觀察到在 Base Prompt Standard 下,GSM8K 的性能從 16.0% 提高到了在基礎(chǔ)提示 CoT 下的 50.2%,再提高到在基礎(chǔ)提示 Complex CoT 下的 60.3%。相反,如果將 Base Prompt Complex CoT 替換為 Standard,則最終性能會降低。例如,在將基礎(chǔ)提示 Complex CoT 替換為 Standard 后,PHP-Complex CoT 在 GSM8K 數(shù)據(jù)集上的性能從 71.6% 下降到了 65.5%。

如果 PHP 不是基于相應(yīng)的 Base Prompt 進行設(shè)計,那么效果可能進一步提高。使用 Base Prompt Complex CoT 的 PHP-CoT 在六個數(shù)據(jù)集中的四個數(shù)據(jù)集表現(xiàn)優(yōu)于使用 CoT 的 PHP-CoT。同樣地,使用基礎(chǔ)提示 CoT 的 PHP-Complex CoT 在六個數(shù)據(jù)集中的四個數(shù)據(jù)集表現(xiàn)優(yōu)于使用 Base Prompt Complex CoT 的 PHP-Complex CoT。作者推推測這是因為兩方面的原因:1)在所有六個數(shù)據(jù)集上,CoT 和 Complex CoT 的性能相似;2)由于 Base Answer 是由 CoT(或 Complex CoT)提供的,而后續(xù)答案是基于 PHP-Complex CoT(或 PHP-CoT),這就相當于有兩個人合作解決問題。因此,在這種情況下,系統(tǒng)的性能可能進一步提高。

消融實驗

f723ff5c-f2b5-11ed-90ce-dac502259ad0.png

將句子 P1 和 P2 納入模型可以提高 CoT 在三個數(shù)據(jù)集上的表現(xiàn),但當使用 Complex CoT 方法時,這兩個句子的重要性尤為明顯。在加入 P1 和 P2 后,該方法在六個數(shù)據(jù)集中有五個數(shù)據(jù)集的表現(xiàn)得到了提升。例如,在 SVAMP 數(shù)據(jù)集上,Complex CoT 的表現(xiàn)從 78.0% 提高到了 80.0%,在 GSM8K 數(shù)據(jù)集上從 68.3% 提高到了 71.6%。這表明,尤其是在模型的邏輯能力更強時,句子 P1 和 P2 的效果更為顯著。

f73f5d9c-f2b5-11ed-90ce-dac502259ad0.png

在設(shè)計提示時需要同時包含正確和錯誤的提示。當設(shè)計的提示同時包含正確和錯誤的提示時,使用 PHP 的效果優(yōu)于不使用 PHP。具體來說,提示中提供正確的提示會促進生成與給定提示相符的答案。相反,提示中提供錯誤的提示則會通過給定的提示鼓勵生成其他答案

PHP+Self-Consistency

f75ccd3c-f2b5-11ed-90ce-dac502259ad0.png

f77f21ac-f2b5-11ed-90ce-dac502259ad0.png

使用 PHP 可以進一步提高性能。通過使用類似的提示和樣本路徑數(shù)量,作者發(fā)現(xiàn)在表 6 和圖 3 中,作者提出的 PHP-CoT 和 PHP-Complex CoT 總是比 CoT 和 Complex CoT 表現(xiàn)更好。例如,CoT+SC 的樣本路徑為 10、20 和 40 時,能夠在 MultiArith 數(shù)據(jù)集上達到 96.5% 的準確率。因此,可以得出結(jié)論,CoT+SC 的最佳性能為 96.5%,使用 text-davinci-003。然而,在實施 PHP 之后,性能升至 97.1%。同樣,作者還觀察到在 SVAMP 數(shù)據(jù)集上,CoT+SC 的最佳準確率為 83.3%,在實施 PHP 后進一步提高到 83.7%。這表明,PHP 可以打破性能瓶頸并進一步提高性能。

使用 PHP 可以降低 SC 的成本,眾所周知,SC 涉及更多的推理路徑,導(dǎo)致成本更高。表 6 說明,PHP 可以是降低成本的有效方法,同時仍保持性能增益。如圖 3 所示,使用 SC+Complex CoT,可以使用 40 個樣本路徑達到 78.1% 的準確率,而加入 PHP 將所需平均推理路徑降低到 10×2.1531=21.531 條路徑,并且結(jié)果更好,準確率達到了 78.2%。

GPT-3.5-Turbo 和 GPT-4

f7a07c3a-f2b5-11ed-90ce-dac502259ad0.png

作者按照以前的工作設(shè)置,使用文本生成模型進行實驗。隨著 GPT-3.5-Turbo 和 GPT-4 的 API 發(fā)布,作者在相同的六個數(shù)據(jù)集上驗證了具有 PHP 的 Complex CoT 的性能。作者對這兩個模型都使用貪心解碼(即溫度 = 0)和 Complex CoT 作為提示。

如表 7 所示,提出的 PHP 增強了性能,在 GSM8K 上提高了 2.3%,在 AQuA 上提高了 3.2%。然而,與 text-davinci-003 相比,GPT-3.5-Turbo 表現(xiàn)出對提示的依附能力降低。作者提供了兩個例子來說明這一點:

a)在提示缺失的情況下,GPT-3.5-Turbo 無法回答問題,并回復(fù)類似于 “由于答案提示缺失,我無法回答此問題。請?zhí)峁┐鸢柑崾疽岳^續(xù)” 的聲明。相比之下,text-davinci-003 在回答問題之前會自主生成并填充缺失的答案提示;
b)當提供超過十個提示時,GPT-3.5-Turbo 可能會回復(fù) “由于給出了多個答案提示,我無法確定正確的答案。請為問題提供一個答案提示。”

f7b5c040-f2b5-11ed-90ce-dac502259ad0.png

在部署 GPT-4 模型后,作者能夠在 SVAMP、GSM8K、AQuA 和 MATH 基準測試上實現(xiàn)新的 SOTA 性能。作者提出的 PHP 方法不斷改善了 GPT-4 的性能。此外,與 GPT-3.5-Turbo 模型相比,作者觀察到 GPT-4 所需的交互次數(shù)減少了,這與 “當模型更加強大時,交互次數(shù)會減少” 的發(fā)現(xiàn)相一致。

總結(jié)

本文介紹了 PHP 與 LLMs 交互的新方法,具有多個優(yōu)點:

1)PHP 在數(shù)學(xué)推理任務(wù)上實現(xiàn)了顯著的性能提升,在多個推理基準測試上領(lǐng)先于最先進的結(jié)果;
2)使用更強大的模型和提示,PHP 可以更好地使 LLMs 受益;
3)PHP 可以與 CoT 和 SC 輕松結(jié)合,進一步提高性能。

為了更好地增強 PHP 方法,未來的研究可以集中在改進問題階段的手工提示和答案部分的提示句子的設(shè)計上。此外,除了將答案當作 hint,還可以確定和提取有助于 LLMs 重新考慮問題的新 hint。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3483

    瀏覽量

    49987
  • PHP
    PHP
    +關(guān)注

    關(guān)注

    0

    文章

    454

    瀏覽量

    27272
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1222

    瀏覽量

    25275

原文標題:華為諾亞提出新型Prompting (PHP),GPT-4拿下最難數(shù)學(xué)推理數(shù)據(jù)集新SOTA

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    OpenAI宣布GPT 4o升智計劃

    透露,GPT 4o的智力水平將得到顯著提升,目標直指o3 pro的水平。這一升級不僅意味著GPT 4o在理解和生成文本方面的能力將得到質(zhì)的飛躍,更將使其在處理復(fù)雜問題、進行邏輯
    的頭像 發(fā)表于 02-17 14:24 ?525次閱讀

    OpenAI即將發(fā)布GPT-4.5與GPT-5

    GPT-4.5將在未來幾周內(nèi)率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術(shù)上進行了諸多優(yōu)化和升級,旨在為用戶提供更加精準、高效的AI服務(wù)。 而在GPT-4.5發(fā)布后不久
    的頭像 發(fā)表于 02-13 13:43 ?569次閱讀

    GPT架構(gòu)及推理原理

    導(dǎo)讀 本篇是作者從開發(fā)人員的視角,圍繞著大模型正向推理過程,對大模型的原理的系統(tǒng)性總結(jié),希望對初學(xué)者有所幫助。 引言 什么是人工智能? 清華大學(xué)出版社出版的《人工智能概論》中提出,人工智能是對人
    的頭像 發(fā)表于 01-20 13:41 ?2155次閱讀
    <b class='flag-5'>GPT</b>架構(gòu)及<b class='flag-5'>推理</b>原理

    中國電提出大模型推理加速新范式Falcon

    的 Falcon 方法是一種 增強半自回歸投機解碼框架 ,旨在增強 draft model 的并行性和輸出質(zhì)量,以有效提升大模型的推理速度。Falcon 可以實現(xiàn)約 2.91-3.51 倍的加速比,在多種數(shù)據(jù)上獲得了很好的結(jié)果
    的頭像 發(fā)表于 01-15 13:49 ?677次閱讀
    中國電<b class='flag-5'>提出</b>大模型<b class='flag-5'>推理</b>加速新范式Falcon

    麻省理工學(xué)院推出新型機器人訓(xùn)練模型

    近日,據(jù)TechCrunch報道,麻省理工學(xué)院的研究團隊展示了一種創(chuàng)新的機器人訓(xùn)練模型,該模型突破了傳統(tǒng)模仿學(xué)習(xí)方法的局限,不再依賴標準數(shù)據(jù),而是借鑒了大型語言模型(LLM)如GPT-4等所使用的大規(guī)模信息處理方式,為機器人學(xué)
    的頭像 發(fā)表于 11-04 14:56 ?843次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來革命性的變化。在這場技術(shù)競賽中,Llama 3和GPT-4作為兩個備受矚目的模型,它們代表了當前AI領(lǐng)域的最前
    的頭像 發(fā)表于 10-27 14:17 ?1035次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過GPT-4 Turbo,數(shù)學(xué)能力和代碼能力更是超過了Open AI最新一代GPT模型GPT-4o。此外,其效率相對提升50%。
    的頭像 發(fā)表于 10-24 11:39 ?927次閱讀

    OpenAI即將發(fā)布“草莓”推理大模型

    科技界迎來新動態(tài),據(jù)可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發(fā)布——預(yù)計在兩周內(nèi),將正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務(wù)中。這款以卓越推理能力為核心的大模型,旨在突破現(xiàn)有
    的頭像 發(fā)表于 09-11 16:53 ?758次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該模型在MMLU上得分為82%, 在LMSYS排行榜上的聊天偏好測試中表現(xiàn)優(yōu)于
    的頭像 發(fā)表于 07-21 10:20 ?1587次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI揭秘CriticGPT:GPT自進化新篇章,RLHF助力突破人類能力邊界

    OpenAI近期震撼發(fā)布了一項革命性成果——CriticGPT,一個基于GPT-4深度優(yōu)化的新型模型,其獨特之處在于能夠自我提升,助力未來GPT模型的訓(xùn)練效率與質(zhì)量躍升至新高度。這一創(chuàng)新之舉,仿佛開啟了AI自我進化的“左腳踩右腳
    的頭像 發(fā)表于 07-02 10:19 ?998次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4的模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設(shè)計,其獨特的作用在于,讓人們能夠用GPT-4來查找GPT-4的錯誤。
    的頭像 發(fā)表于 06-29 09:55 ?781次閱讀

    OpenAl推出新模型讓GPT-4幫人類訓(xùn)練GPT-4

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年06月28日 11:36:11

    OpenAI API Key獲取:開發(fā)人員申請GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語言理解和生成能力,成為了許多開發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項目,如開發(fā)一個ChatGPT聊天應(yīng)用,不僅是實踐人工智能技術(shù)
    的頭像 發(fā)表于 06-24 17:40 ?3629次閱讀
    OpenAI API Key獲取:開發(fā)人員申請<b class='flag-5'>GPT-4</b> API Key教程

    國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開發(fā)教程!

    API Key、配置環(huán)境、并編寫調(diào)用代碼。 GPT-4o模型: GPT-4o(GPT-4優(yōu)化版)是OpenAI開發(fā)的一款高級語言模型。與其前身GPT-4相比,
    的頭像 發(fā)表于 06-08 00:33 ?6856次閱讀
    國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)<b class='flag-5'>GPT4</b>o API調(diào)用開發(fā)教程!

    NB81是否支持OneNet SOTA功能?應(yīng)該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應(yīng)該如何激活SOTA
    發(fā)表于 06-04 06:14