女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

源1.0在數學推理任務方面的解決方案和表現

浪潮AIHPC ? 來源:浪潮AIHPC ? 作者:浪潮AIHPC ? 2022-11-11 11:54 ? 次閱讀

“源1.0”大模型是浪潮信息發布的中文巨量模型,參數量高達2457億,在中文語言能力理解和生成評測基準CUGE總榜中取得榜首,并獲得語言理解(篇章級)、語言生成、對話交互、多語言、數學推理等5項評測最佳成績。其中在數學推理評測中,源1.0大模型完成1000道小學數學應用題,以76.9的高分大幅領先。

數學對邏輯和推理能力有極強的要求,以往大模型在數學領域表現欠佳。源1.0為何能取得這么好的成績?本文將介紹數學推理任務的背景、研究現狀,以及源1.0在數學推理任務方面的解決方案和表現。

數學單詞問題的研究背景及意義

數學單詞問題,即Math Word Problem(MWP),其主要目標是根據自然語言文字描述的內容解決相應的數學問題。也就是說,對于給定的數學問題,模型需要理解相關文字的數學含義,并推理出正確的表達式。

一個典型的MWP示例如下。

a755b596-60da-11ed-8abf-dac502259ad0.png問題:“快車和慢車同時從相距450千米的兩城相對開出,4.5小時后兩車還相距90千米,快車和慢車的速度比為9:7,慢車每小時行多少千米?”

表達式:(450-90)/4.5*7/(9+7)

結果:35

不難發現,該題目除了要求模型能夠理解基本的加減乘除法之外,還需要理解什么是比例問題。此外,若將問題中的“相對開出”改為“相反方向開出”,將會導致問題的數學邏輯大相徑庭。如何讓模型分辨出語言表達上的差異,并正確地推理出對應的表達式是MWP任務的基本要求。

需要注意的是,在上面的MWP中,表達式中所需的數字量均可以在問題中找到,但在某些情況下,表達式中所需要的數字量并不會全部包含在問題中。例如,在含有分數的MWP示例中(如下紅框中所示),需要根據題目中的數學邏輯,在表達式中額外添加相應的數字量“1”。同樣的問題還常見于計算圓的周長或面積時,需要額外添加數字量“3.14”。

a755b596-60da-11ed-8abf-dac502259ad0.png問題:“一根電線長80米,第一次截去的全長的2/5,第二次截去了余下的1/4,這根電線還剩多少米?”

表達式:80*(1-2/5-(1-2/5)*1/4)

結果:36

毫無疑問,MWP任務給模型的語言理解能力和數學推理能力都帶來了極大的挑戰,如何解決MWP任務也是NLP領域的研究熱點之一。

數字單詞問題的研究現狀

實際上,直到2016年MWP的任務精度仍然比較有限。關于MWP任務在2016年之前的研究在此不作細述,相關綜述可參考論文:

How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation (Huang et al., ACL 2016)

近幾年,借助DNN解決MWP任務的方法顯著提升了MWP任務精度,這些方法大致可以分為以下三類:基于seq2seq模型、基于seq2tree模型和基于預訓練模型。

|基于seq2seq模型

該方法是由Wang Yan等學者[1]首次應用在MWP任務上,并在大規模多題型的數據集(Math23K)上取得了顯著的效果(對于Math23K數據集將在后續內容中進行說明)。該方法本質上是采用Encoder-Decoder(enc-dec)結構直接完成了從“問題”到“表達式”的映射。值得一提的是,前述的Math23K數據集規模較大題型較多(約22000道),是目前MWP任務評測的benchmark。

此外,通過設計不同的Encoder和Decoder結構可以得到改進后的seq2seq方法。不過令人驚訝的是,Transformer結構的enc-dec并未在Math23K數據集上表現出明顯的優勢;而采用LSTM結構作為enc-dec的LSTMVAE方法表現最佳。

|基于seq2tree模型

基于Seq2tree模型實際上是基于seq2seq模型的變種,簡單來說,就是將number-mapping后的表達式轉化為樹結構作為模型訓練的輸出(如圖1所示),由于父節點與子節點處的數學符號以及連接方式是固定的,這種方式能夠有效地限制表達式的多樣性。這里,表達式的多樣性可以理解為針對同一個問題可以列出不同的表達式,例如n1+n2-n3還可以寫成n2+n1-n3或者n1+(n2-n3)。

a77c78d4-60da-11ed-8abf-dac502259ad0.jpg

圖1 樹結構化的表達式生成示意

在前述基礎下,基于seq2tree模型的MWP任務解決方法應運而生,其核心思想是將原先的decoder被替換成了tree-based decoder。至此,MWP任務解決思路似乎主要集中在如何替換encoder和decoder問題上。例如,Wang Lei等學者又調整了encoder結構,提出了Graph2tree的方法并且在Math23K任務上精度高達75%。

|基于預訓練模型

Wang Lei等學者[3]發現BERTGen和RoBERTGen(Dec:BERT、RoBERT;Enc:Transformer)在Math23K數據集上表現較為優秀(76.9%)。此外,他們還驗證了GPT-2模型在Math23K數據集上的表現(74.3%),結果稍遜于基于BERT模型的方法,這可能是GPT-2模型結構的原因(Decoder結構)。

|其他MWP任務解決方法

根據前述方法,可以看到的是encoder采用BERT模型較好,decoder采用tree-based方式較好,若將兩者結合形成BERT encoder + tree-based decoder[4],其在Math23K數據集上的精度達到了驚人的84.4%,是目前Math23K任務的baseline。

此外,在眾多MWP任務解決方法中Recall and learn方法[5]是十分值得一提的。該方法跳出了經典的enc-dec結構,通過模擬人腦在解決問題時的類比能力,推理出數學問題的表達式,最終該方法在Math23K任務上的精度能夠達到82.3%。

“源1.0”大模型的MWP任務解決方案

需要指出的是,盡管構建單個技能模型在一定程度上能夠較好地完成MWP任務,但現有技能模型絕大多數仍采用的是encoder-decoder結構,針對類似decoder結構下(如GPT-2)的模型數值推理能力的研究仍然較少。此外,從實現通用人工智能的目標來看,提升通用大模型的數值推理能力是十分必要的。

接下來,將詳細介紹浪潮信息的“源1.0”大模型(decoder結構)在Math23K任務上的相關工作,希望能夠對提升通用大模型的數值推理能力有所啟發。“源1.0”大模型在數學推理能力方面目前位列中文語言能力評測基準CUGE榜首。

| 目標導向的問答式Prompt設計

Math23K的標準數據樣例為:

{

“text”: “某班學生參加數學興趣小組,其中,參加的男生是全班人數的20%,參加的女生是全班人數的(2/7)多2人,不參加的人數比全班人數的(3/5)少5人,全班有多少人?”,

“segmented_text”: “某班 學生 參加 數學 興趣小組 , 其中 , 參加 的 男生 是 全班 人數 的 20% , 參加 的 女生 是 全班 人數 的 (2/7) 多 2 人 , 不 參加 的 人數 比 全班 人數 的 (3/5) 少 5 人 , 全班 有 多少 人 ?”,

“equation”: “x=(5-2)/(20%+(2/7)+(3/5)-1)”,

“label”: “35”

}

其中“text”和“equation”分別對應了任務的問題和表達式信息。在嘗試過各種prompt后,最終確定的prompt設計如下。這種prompt設計將原本的問題拆分成了題干和待求解問題(“問:全班有多少人”)兩個部分,這是由于“問:”后面的內容對表達式的生成十分關鍵。例如,“全班有多少人”和“全班女生有多少人”所對應的表達式是完全不同的。

a755b596-60da-11ed-8abf-dac502259ad0.png{

某班學生參加數學興趣小組,其中,參加的男生是全班人數的20%,參加的女生是全班人數的(2/7)多2人,不參加的人數比全班人數的(3/5)少5人,問:全班有多少人?答: x=(5-2)/(20%+(2/7)+(3/5)-1)

}

|相似啟發式數據增強方法

Math23K數據集的題型雖然較為豐富,但題型分布并不均勻。例如,涉及圖形周長、面積和體積類的問題顯然比其他題目類型要少,為保證模型在各類數學題型上均有較好的表現,有必要將該類型的題目擴充。

本文采用了Ape210K數據集[6]對Math23K訓練集進行擴充,Ape210K數據集是另一種較為常用的中文應用數學題集,其題型更為豐富且題量更大(訓練集約20萬道題)。然而,為保證模型在Math23K測試集上有良好的表現,并不能簡單地將Math23K和Ape210K數據集混合在一起。為保證數據增強的有效性,本文提出了一種相似啟發式數據增強方法(如圖2所示)。

該方法針對Math23K訓練集中的每一道題,首先判斷是否屬于圖形周長、面積和體積類題目。若屬于,則top-K取值為2,同時通過相似題檢索從Ape210K中召回對應的相似題;若不屬于,則top-K取值為1,同樣進行相似題檢索。最后,將找到的相似題添加至Math23K訓練集中,數據增強后的訓練集約包含42000道題。

a7a3fd96-60da-11ed-8abf-dac502259ad0.jpg

圖2 相似啟發式數據增強方法

|Reset-position-id與reset-attention-mask設計

輸入到模型的一個batch中通常包含多道應用題,且會出現截斷等問題。為避免不同題目和表達式之間相互影響,對模型進行reset-position-id和reset-attention-mask處理。圖3示意了reset前后的對比,采用了[eod]對不同題目之間做切割,在reset-pos-id之前,其位置編碼按照從左到右的順序排列;reset-pos-id之后,位置編碼按照單個題目進行順序排列。類似的,在reset-attn-mask之前,掩碼矩陣對應的是batch尺寸的下三角矩陣;reset-attn-mask后,原先的掩碼矩陣被拆分成若干小的掩碼矩陣,每個小掩碼矩陣對應單個題目尺寸的下三角矩陣。

a7b98d8c-60da-11ed-8abf-dac502259ad0.jpg

圖3 reset-pos-id和reset-attn-mask前后對比(示意)

訓練參數及結果

訓練過程的主要參數設置如下。

a7cee916-60da-11ed-8abf-dac502259ad0.jpg

表1 模型訓練部分參數

在訓練了400個iteration后,模型的loss收斂至0.39(圖4)。

a7e2d764-60da-11ed-8abf-dac502259ad0.jpg

圖4 模型loss曲線

之后,在Math23K測試集上對所提方法的精度進行了測試,并與現有相關方法的結果進行對比(表2)。不難看出,與BERT、GPT-2以及CPM-2模型相比,所提方法下的“源1.0”大模型在Math23K任務上的精度最高。

a8035796-60da-11ed-8abf-dac502259ad0.jpg

表2 源1.0模型與BERT、GPT等在Math23K測試集上的對比

(相關結果見參考文獻[4])

總結與展望

為提升decoder結構下的通用大模型在MWP任務上的精度,本文提出了一種目標導向的問答式prompt設計方法,該方法有利于引導模型建立問題與表達式之間的準確對應關系;同時提出了一種相似啟發式數據增強方法,通過相似句召回的方式對數據集進行擴充,克服了原有數據集中題型分布不均勻的問題;此外,采用了重置位置編碼和掩碼矩陣的方法,解決了單個batch中的題目之間相互影響的問題。最后,在Math23K數據集上驗證了所提方法,結果證明了“源1.0”模型有很強的數學推理能力。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 浪潮
    +關注

    關注

    1

    文章

    474

    瀏覽量

    24504
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25279

原文標題:浪潮“源”AI大模型如何求解數學應用題

文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    通過什么方法能獲得關于Ethercat方面的設計方案和設計資料

    您好通過什么方法能獲得關于Ethercat方面的設計方案和設計資料,我們主要關于主站,從站IO和運動控制方面的資料,謝謝!!
    發表于 05-28 10:07

    解析SMA接口在電磁兼容性方面的卓越表現

    德索精密工業通過在材料選用、工藝處理以及結構和內導體設計等多方面的不懈努力,使得其生產的SMA接口在電磁兼容性方面表現卓越,在眾多對電磁環境要求嚴苛的領域中扮演著不可或缺的角色。
    的頭像 發表于 05-20 08:48 ?133次閱讀
    解析SMA接口在電磁兼容性<b class='flag-5'>方面的</b>卓越<b class='flag-5'>表現</b>

    解析 SMA 接口在電磁兼容性方面的卓越表現

    德索精密工業通過在材料選用、工藝處理以及結構和內導體設計等多方面的不懈努力,使得其生產的SMA接口在電磁兼容性方面表現卓越,在眾多對電磁環境要求嚴苛的領域中扮演著不可或缺的角色。
    的頭像 發表于 05-14 09:12 ?150次閱讀
    解析 SMA 接口在電磁兼容性<b class='flag-5'>方面的</b>卓越<b class='flag-5'>表現</b>

    使用MicroPython部署中的ocrrec_image.py推理得到的輸出結果很差,如何解決呢?

    使用在線平臺訓練OCR識別任務,測試結果表現很好。 期待結果和實際結果 實際的推理結果很差,推理不出任何信息。
    發表于 04-29 06:54

    芯啟提供DPU產品與解決方案

    芯啟創立于2015年8月,是國內領先的網絡芯片及解決方案的供應商。芯啟聚焦網絡通訊、5G、云數據中心領域,致力于“為超大規模電信級和企業級中心的智能安全網絡提供核心芯片和系統解決方案
    的頭像 發表于 04-10 14:18 ?429次閱讀
    芯啟<b class='flag-5'>源</b>提供DPU產品與<b class='flag-5'>解決方案</b>

    聊聊 全面的蜂窩物聯網解決方案

    。這種零散的解決方案所有權給產品開發人員帶來了各種挑戰和風險,往往會導致次優的實現,需要在成本、性能和功耗方面做出許多權衡。 在 Nordic,我們的目標是簡化蜂窩產品開發并支持整個產品生命周期。這就
    發表于 03-17 11:39

    OpenAI O3與DeepSeek R1:推理模型性能深度分析

    ,OpenAI的O3在編碼任務方面超過了DeepSeek的R1,而R1在數學推理方面表現出了競
    的頭像 發表于 02-18 11:07 ?819次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    證明)或處理符號系統(如LaTeX公式)時表現更優。 總結選擇建議 若需求以通用文本交互為主,優先選 V3 (性價比更高); 若涉及復雜數學/符號推理或嚴格邏輯鏈任務,選 R1 (專項
    發表于 02-14 02:08

    智譜推出深度推理模型GLM-Zero預覽版

    近日,智譜公司正式發布了其深度推理模型GLM-Zero的預覽版——GLM-Zero-Preview。這款模型標志著智譜在擴展強化學習技術訓練推理模型方面的重大突破,成為其首個專注于增強AI推理
    的頭像 發表于 01-03 10:42 ?442次閱讀

    阿里云開源推理大模型QwQ

    推理能力,尤其在數學和編程方面表現突出。其整體推理水平已經可以與OpenAI的o1模型相媲美,這充分展示了QwQ的強大實力和潛力。 QwQ(
    的頭像 發表于 11-29 11:30 ?1027次閱讀

    Kimi發布新一代數學推理模型k0-math

    近日,Kimi正式推出了其新一代數學推理模型k0-math。據基準測試顯示,該模型的數學能力可與全球領先的OpenAI o1系列中的o1-mini和o1-preview模型相媲美。 在針對中考、高考
    的頭像 發表于 11-18 11:38 ?901次閱讀

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有
    的頭像 發表于 11-15 11:45 ?1305次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發任務中,還是在高并發
    的頭像 發表于 10-27 10:03 ?686次閱讀
    NVIDIA助力麗蟾科技打造AI訓練與<b class='flag-5'>推理</b>加速<b class='flag-5'>解決方案</b>

    阿里Qwen2-Math系列震撼發布,數學推理能力領跑全球

    阿里巴巴近期震撼發布了Qwen2-Math系列模型,這一系列模型基于其強大的Qwen2 LLM構建,專為數學解題而生,展現了前所未有的數學推理能力。Qwen2-Math家族包括1.5B、7B及72B三種規模,旨在滿足不同場景下的
    的頭像 發表于 08-12 15:19 ?1100次閱讀

    神經網絡在數學建模中的應用

    數學建模是一種利用數學方法和工具來描述和分析現實世界問題的過程。神經網絡是一種模擬人腦神經元結構和功能的計算模型,可以用于解決各種復雜問題。在數學建模中,神經網絡可以作為一種有效的工具,幫助我們更好
    的頭像 發表于 07-02 11:29 ?1561次閱讀