最新研究揭示,盡管大語言模型LLMs在語言理解上表現出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估基準,包含12個數據集,覆蓋三大任務類型。
實驗對比發現,GPT-4在邏輯推理上的表現遠超ChatGPT,但與人類表現和有監督的微調相比,仍有提高空間。
為此,研究者提出了自我一致性探測方法(self-consistency probing method)來進一步提升ChatGPT的準確性,并通過微調策略,進一步增強大型語言模型的邏輯推理能力。
讓我們一起看看這篇研究吧!
GLoRE基準
邏輯推理,作為人類智能的核心,長期以來都是AI研究的熱點。為了更好地評估LLMs在自然語言中處理復雜信息的能力,研究人員推出了通用邏輯推理評估(GLoRE)基準。與眾所周知的GLUE和Super-GLUE評估自然語言理解能力類似,GLoRE匯集了多個邏輯推理數據集。
GLoRE主要包括三大任務:
多項選擇閱讀理解:系統給定段落和問題,目的是從答案中選擇正確的選項。特別地,GLoRE包括五個此類數據集,如LogiQA、ReClor、AR-LSAT等。
自然語言推斷(NLI):確定假設與前提之間的邏輯關系。包括ConTRoL、HELP、TaxiNLI等數據集。
真或假問題(TF):如FraCaS、RuleTaker和ProofWriter等數據集。
這些數據集涵蓋了從簡單到復雜的各種邏輯推理情境,為我們評估大型語言模型的邏輯推理能力提供了合適的平替。其中,多項選擇閱讀理解深入探討了邏輯MRC問題,而NLI任務關注文本分類中的蘊涵關系。而真或假問題主要測試了模型在多前提上下文的蘊涵問題上的處理能力。
實驗設置
在這篇研究中,研究人員針對開源的LLMs和基于封閉API或UI的模型進行了評估,考慮了7種評估場景:
zero-shot評估:模型通過模板轉換得到提示,并生成語言化的答案。
few-shot評估:LLMs使用帶有答案的示例作為上下文進行推斷。
指令調整:LLMs被訓練以遵循自然語言指令,進行任務特定的微調。
自我一致性評估:模型需要全面了解上下文中的邏輯關系。
思維鏈評估:模型進行一步一步的邏輯思考。
聊天UI評估:基于GPT-4的手動聊天UI測試,更真實地反映用戶與模型的互動。
生成響應的評估:對模型生成的響應進行質量評估,包括連貫性、完整性、正確性和相關性。
在實驗中采用了RoBERTa-base作為基線,對比了數個LLMs如Falcon-40b-instruct和LLaMA-30b-supercot,以及OpenAI的ChatGPT和GPT-4。
評估指標主要以分類精度得分為指標,并設立人類基線,對于LogiQA22數據集特邀五名合著者進行測試。
主要結果
Zero-shot任務
下表展示了主要的zero-shot任務上的實驗結果。
我們主要可以得出以下發現:
人類準確率: 人類在大多數邏輯推理任務上的平均準確率超過80%,尤其是在ReClor和AR-LSAT上,平均準確率分別為63.00%和56.00%。
RoBERTa-base表現: 該模型在多數邏輯推理任務上的表現落后于平均人類表現,但在特定的ProofWriter任務上有55.92%的準確率,顯示出處理特定邏輯推理任務的潛力。
開源模型對比: LLaMA和Falcon在多數邏輯推理任務上的表現都不如微調的RoBERTa-base,特別是在MRC任務上。
ChatGPT和GPT-4: 兩種模型在多數MRC基準測試中超過了RoBERTa-base。GPT-4在處理一些邏輯MRC數據集上展現出了顯著的能力。
LogiQA 2.0深度分析: ChatGPT和GPT-4在分類推理上都展現出了超高的準確率,但在處理涉及析取的前提上面臨挑戰。
Few-shot任務
下表展示了不同模型在few-shot任務上的實驗結果。GPT-4在與zero-shot相比的few-shot場景中獲得了超過9個百分點的準確率提升。
推理任務
下表展示了不同推理類型的統計分析。
ChatGPT和GPT-4在分類推理上表現出了超高的準確率,分別為83.83%和95.04%。
兩模型在涉及析取的前提上面臨挑戰,可能是因為這些邏輯結構的固有復雜性和潛在的模糊性。
社區模型在分類推理上沒有展現出特別強的表現,連詞推理和析取推理對它們來說仍然是個挑戰。
指令微調的有效性
使用Alpaca的指令進行微調后,所有任務的性能都得到了顯著提高,證明了指令調整的強大效果。這種改進主要歸因于模型增強的一般指令理解能力。
經過調整的LLaMA-7B模型明顯優于基線的LLaMA-7B模型和Alpaca。在LogiQA 2.0數據集上,模型的準確率從18.04%增加到52.74%,高于微調后的RoBERTa-base的48.76%。
盡管微調僅使用了LogiQA 2.0的訓練數據集,但經過調整的模型成功地將其能力推廣到其他數據集。在ReClor數據集上,經過調整的模型達到了55.20%的準確率,比Alpaca高出32.82個百分點。
Self-Consistency Probing評估
邏輯推理任務通常涉及處理一系列相關的陳述或事實,然后根據這些信息進行推斷。這些任務需要理解不同信息之間的相互作用,而不是獨立地處理它們。這意味著,即使事實的順序或句子的結構發生變化,真正的邏輯結論也應該保持不變。因此,研究人員在實驗中通過打亂句子為ChatGPT引入多樣性,特別是對于那些固有地不是順序的數據集。
由表可觀察到,投票模型在多數數據集上優于單一模型。在LogiQA 2.0 zh數據集上,單一模型有更高的準確率,可能因為中文語言結構的特殊性。
打亂文本不會對ChatGPT的性能產生負面影響。在某些情況下,打亂的文本甚至提高了性能。類似的趨勢也出現在其他CoT數據中,其中CoT序列的擾動對整體效率的影響很小。
CoT評估
下表展示了在GLoRE上使用/不使用CoT的結果。
除此之外,實驗還計算了GPT-4結果的混淆矩陣。所有模型在使用CoT提示時都有性能提升,范圍在2%到3%之間?;煜仃囘M一步說明了使用CoT提示提高性能的重要性。
GPT4的Chat UI評估
實驗還對GPT-4模型在Chat UI界面上的性能進行了深入探索,并通過案例研究揭示了其在回答和推理上的特點。
實驗結果表明,沒有觀察到基于UI的輸出和基于API的輸出之間的明顯質量差異?;赨I的評估結果在大多數數據集上略高于基于API的結果。評估指標可能是造成這種差異的一個原因。
案例研究主要有以下發現:
GPT-4在一些情況下能夠正確地回答和推理,例如通過選擇新證據來解決專家觀點和證據之間的矛盾。
GPT-4有時會生成不正確的答案,如對人類起源的問題的回答。
在某些情況下,提供上下文示例可以幫助GPT-4更準確地回答問題。
CoT推理過程通過為GPT-4提供更相關的上下文來工作,但也可能依賴于表面的模式而不是深入的抽象。
人工評估
實驗對模型的表現進行了人工評估,GPT-4在所有指標上都穩定地排名第一,ChatGPT緊隨其后。評注者之間的一致性良好,Cohen's Kappa值為0.79。
連貫性: GPT-4得分最高,為4.52,表現出其邏輯連貫輸出的能力。ChatGPT緊隨其后,得分為4.00。
完整性: ChatGPT和GPT-4并列第一,得分均為4.81,展示了其詳盡的回應能力。
正確性: GPT-4得分為4.51,領先于其他模型,其回應準確率高。
相關性: GPT-4略微領先,得分為4.89,與ChatGPT得分4.72相當接近。
此外,使用GPT-4 API作為評估器對LLaMA-30-supercot模型進行了實驗,其評估得分與人工評估得分相近,為邏輯推理任務的自動評估提供了信心。
結語
在這項研究中,研究團隊提出了一個名為GLoRE的數據集,專門用于評估LLMs在處理多種邏輯推理任務上的表現。研究發現ChatGPT和GPT-4在大部分邏輯推理基準測試上都顯著超越了傳統的微調方法。盡管商業模型在GLoRE測試中的表現相對較弱,但通過對相似數據進行指令調整,模型的性能得到了顯著提高。此外,通過監督微調、上下文學習和投票技術,研究團隊成功地實現了更為出色的結果。在對模型進行量化和定性評估后,該團隊指出,現有的LLMs在解決邏輯推理任務時,似乎更多地依賴于表面模式。因此,他們認為,對底層推理機制進行深入研究和增強,將是一個有益的方向。
審核編輯:湯梓紅
-
語言模型
+關注
關注
0文章
558瀏覽量
10682 -
自然語言
+關注
關注
1文章
291瀏覽量
13608 -
ChatGPT
+關注
關注
29文章
1588瀏覽量
8810
原文標題:GLoRE:大型語言模型的邏輯推理能力探究
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
【大語言模型:原理與工程實踐】大語言模型的應用
基于邏輯推理的網絡攻擊想定生成系統
騰訊發布混元大語言模型
基于歸結反演的大語言模型邏輯推斷系統

基于CPU的大型語言模型推理實驗

評論