基于LLM的表格數(shù)據(jù)的大模型推理綜述

面向表格數(shù)據(jù)的大模型推理綜述

1.介紹

面向表格數(shù)據(jù)的推理任務(wù)，在計(jì)算機(jī)領(lǐng)域，特別是自然語言處理（Natural Language Processing，NLP）領(lǐng)域的研究中扮演著重要角色[1]。該任務(wù)要求模型在給定一個(gè)或多個(gè)表格的情況下，按照任務(wù)要求，生成相應(yīng)的結(jié)果作為答案（例如：表格問答、表格事實(shí)判斷）。尤其在大數(shù)據(jù)時(shí)代，從海量數(shù)據(jù)中獲取用戶所需信息變得尤為困難，而這些數(shù)據(jù)的主要存儲(chǔ)形式就是結(jié)構(gòu)化數(shù)據(jù)（例如：表格、數(shù)據(jù)庫）。因此，構(gòu)建能夠從龐雜的結(jié)構(gòu)化數(shù)據(jù)中高效準(zhǔn)確地推理出所需信息的系統(tǒng)變得越來越重要，表明了表格推理任務(wù)的重要性。為了簡(jiǎn)潔，在本文中我們將“面向表格數(shù)據(jù)的推理任務(wù)”簡(jiǎn)稱為“表格推理任務(wù)”。

過去表格推理的研究大致經(jīng)過了基于規(guī)則[2]、基于神經(jīng)網(wǎng)絡(luò)[3]以及基于預(yù)訓(xùn)練模型[4]（Pre-Trained Language Model）幾個(gè)階段。最近的研究表明，大規(guī)模語言模型（Large Language Model，LLM）在各個(gè)NLP任務(wù)上都表現(xiàn)出了引人注目的性能[5]，尤其是，無需大規(guī)模數(shù)據(jù)微調(diào)就能遷移到各個(gè)任務(wù)上的上下文學(xué)習(xí)能力，極大地降低了標(biāo)注需求?？紤]到表格推理多樣的任務(wù)與較高的標(biāo)注開銷，已有許多工作將LLM應(yīng)用到表格推理任務(wù)上，增強(qiáng)LLM的表格推理能力，取得了非常優(yōu)異的結(jié)果。然而，由于基于LLM的研究與過去的研究范式存在較顯著的差異，而目前缺乏對(duì)基于LLM的表格推理的工作的總結(jié)與分析，一定程度上阻礙了該方向的研究。

因此，我們?cè)诒疚膶?duì)現(xiàn)有的基于LLM的表格推理相關(guān)工作進(jìn)行梳理，來促進(jìn)該領(lǐng)域上的研究。本文的結(jié)構(gòu)組織如下：第2節(jié)，我們介紹表格推理任務(wù)的定義與主流數(shù)據(jù)集，來作為我們后續(xù)分析的基礎(chǔ)；第3節(jié)，我們給出了基于LLM的表格推理方法的分類，并總結(jié)了該任務(wù)現(xiàn)有的研究工作，來幫助研究者了解表格推理任務(wù)未來可能的研究方向；第4節(jié)，我們給出了各個(gè)研究方向的可能改進(jìn)，啟發(fā)未來的研究思路。

2. 背景

2.1. 任務(wù)定義

圖1：表格推理示意圖

作為我們后續(xù)討論的基礎(chǔ)，在這一小節(jié)，我們簡(jiǎn)要給出表格推理任務(wù)的定義。

在表格推理任務(wù)中，模型的輸入是用戶對(duì)模型提出的要求或問題、結(jié)構(gòu)化數(shù)據(jù)，以及可選的表格文字說明，輸出則是對(duì)用戶提出的要求或問題的回答，具體包括表格問答、事實(shí)驗(yàn)證、table-to-text以及text-to-SQL等，相關(guān)表格推理任務(wù)的總結(jié)如圖1所示。

2.2. 相關(guān)數(shù)據(jù)集

盡管目前主流工作在使用LLM解決表格推理任務(wù)時(shí)，一般會(huì)使用基于上下文學(xué)習(xí)的方法來進(jìn)行預(yù)測(cè)，而無需數(shù)據(jù)進(jìn)行訓(xùn)練，但人們依然需要依賴標(biāo)注數(shù)據(jù)，來驗(yàn)證LLM在解決表格推理任務(wù)時(shí)的性能。因此在這一小節(jié)，我們將針對(duì)四個(gè)目前主流的表格推理任務(wù)，分別介紹相關(guān)的主流數(shù)據(jù)集：

表格問答：WikiTableQuestions[3]數(shù)據(jù)集作為第一個(gè)表格問答類的數(shù)據(jù)集，由于其開放域的表格和復(fù)雜的查詢問題，使得該數(shù)據(jù)集能夠充分驗(yàn)證模型的表格問答能力；

表格事實(shí)驗(yàn)證：TabFact[6]數(shù)據(jù)集作為第一個(gè)表格事實(shí)驗(yàn)證類的數(shù)據(jù)集，其大規(guī)?？珙I(lǐng)域的表格數(shù)據(jù)和復(fù)雜的推理需求，可以有效檢驗(yàn)?zāi)Ｐ驮诒砀袷聦?shí)驗(yàn)證任務(wù)上的能力；

table-to-text：ToTTo[7]數(shù)據(jù)集通過高亮特定的表格內(nèi)容生成相關(guān)描述，因其大規(guī)模高質(zhì)量的表格數(shù)據(jù)及對(duì)應(yīng)描述能很好地驗(yàn)證模型的table-to-text能力，而成為table-to-text任務(wù)的主流數(shù)據(jù)集；

text-to-SQL：Spider[8]是第一個(gè)text-to-SQL任務(wù)上多領(lǐng)域、多表格的數(shù)據(jù)集，在text-to-SQL任務(wù)上被廣泛使用。

3. 前沿進(jìn)展

圖2：表格推理方法分類

為了幫助研究者們更深入地了解從何種角度提升模型的表格推理能力，我們將現(xiàn)有基于LLM的表格推理相關(guān)研究分為5類，分別為：有監(jiān)督微調(diào)（LLM Pre-Train）、模塊化分解（Decomposed Pipeline）、上下文學(xué)習(xí)（In-Context Learning）、使用工具（Invoking Tools），以及提高魯棒性（Robustness Improvement），各個(gè)分類間的關(guān)系如圖2所示。我們將在本節(jié)詳細(xì)介紹這種分類標(biāo)準(zhǔn)的原因以及具體分類信息。并且，為了讀者更好地了解現(xiàn)有研究的進(jìn)展，我們將詳細(xì)介紹這5種類別下研究者們解決表格推理任務(wù)的具體措施，如圖3所展現(xiàn)。同時(shí)，為了幫助人們更好地理解與PLM時(shí)代研究的差異，我們還討論了每個(gè)分類下，基于LLM的研究相較于基于PLM研究的變化。

圖3：表格推理前沿進(jìn)展總結(jié)

3.1. 有監(jiān)督微調(diào)

有監(jiān)督微調(diào)是指用有標(biāo)注數(shù)據(jù)微調(diào)LLM，從而增強(qiáng)LLM的表格推理能力。現(xiàn)有的研究結(jié)果表明，部分開源大模型解決表格相關(guān)任務(wù)的能力較弱，所以希望通過有監(jiān)督微調(diào)提升模型的表格推理能力。

現(xiàn)有的LLM表格推理的有監(jiān)督微調(diào)工作分為兩類：基于已有標(biāo)注數(shù)據(jù)集的微調(diào)，以及從LLM中蒸餾數(shù)據(jù)進(jìn)行微調(diào)。

關(guān)于基于已有標(biāo)注數(shù)據(jù)集進(jìn)行微調(diào)的工作，受到LLM能夠在少量或沒有標(biāo)注數(shù)據(jù)的情況下達(dá)到很好的性能的啟發(fā)，TabLLM[9]，如圖4所示，通過用少量有標(biāo)注數(shù)據(jù)微調(diào)T0有效提升了模型在表格數(shù)據(jù)分類任務(wù)上的性能。TableGPT[10]觀察到LLM在解決領(lǐng)域內(nèi)問題時(shí)性能下降，所以使用精心選擇的領(lǐng)域內(nèi)數(shù)據(jù)微調(diào)LLM以增強(qiáng)模型的領(lǐng)域內(nèi)知識(shí)。TableLlama[11]考慮到前人工作只支持特定類型的表格和任務(wù)，或者模型微調(diào)只能學(xué)習(xí)到進(jìn)行預(yù)定義的表格操作，因此從廣泛使用的數(shù)據(jù)集中選擇具有代表性的表格任務(wù)構(gòu)建了TableInstruct數(shù)據(jù)集，并在此上微調(diào)LLM很好地提升了模型泛化性。

圖4：TabLLM方法示意圖

而關(guān)于從LLM中蒸餾數(shù)據(jù)的工作，[12]觀察到開源小模型缺乏在復(fù)雜推理的table-to-text任務(wù)上的性能落后于LLM，于是使用LLM作為教師模型蒸餾CoT推理和表格描述，并用蒸餾數(shù)據(jù)微調(diào)開源模型，有效地將表格推理能力轉(zhuǎn)移到較小的模型上。而HELLaMA[13]關(guān)注到部分通用模型缺乏根據(jù)輸入在表格中定位依據(jù)的能力，因此通過使用其他LLM預(yù)測(cè)表格描述定位在表格中的位置獲得訓(xùn)練數(shù)據(jù)微調(diào)開源模型，而且微調(diào)模型完成根據(jù)突出顯示的表格部分完成表格摘要。

基于已有數(shù)據(jù)，或者蒸餾數(shù)據(jù)微調(diào)的兩種方法體現(xiàn)了LLM時(shí)代研究者進(jìn)行有監(jiān)督微調(diào)的兩種思路，通過不同的途徑收集標(biāo)注數(shù)據(jù)用來訓(xùn)練。

在PLM時(shí)代，研究者也會(huì)對(duì)模型有監(jiān)督微調(diào)，但與LLM時(shí)代不同，研究者只能期待提升模型在某一類表格推理任務(wù)上的性能[32]，受限于預(yù)訓(xùn)練模型的能力，無法通過微調(diào)提升模型在所有表格推理任務(wù)上的泛化能力。

3.2. 模塊化分解

模塊化分解指將復(fù)雜任務(wù)顯式地分解為多個(gè)子任務(wù)，來完成表格推理任務(wù)。研究者發(fā)現(xiàn)將任務(wù)分解為簡(jiǎn)單的子任務(wù)后，完成各個(gè)子任務(wù)比完成整個(gè)復(fù)雜任務(wù)更為容易，可以提升LLM在復(fù)雜任務(wù)上的性能，所以希望通過合理分解復(fù)雜表格推理任務(wù)來提升模型性能。

DATER[14]和 DIN-SQL[15]都注意到將復(fù)雜問題分解為簡(jiǎn)單子問題可以有效促進(jìn)大模型多步推理，因此兩篇文章分別針對(duì)表格推理任務(wù)，以及單獨(dú)的text-to-SQL任務(wù)設(shè)計(jì)了不同的流水線方法將復(fù)雜推理任務(wù)分解來降低模型推理難度。

圖5：DATER方法示意圖

TableQAKit[16]發(fā)現(xiàn)TableQA任務(wù)面臨著有巨大差異的數(shù)據(jù)和任務(wù)形式，阻礙了研究的便利性。因此提出了TableQAKit，一個(gè)能夠支持幾乎所有TableQA場(chǎng)景、支持LLM的統(tǒng)一工具包。TableQAKit將TableQA的任務(wù)框架分成了配置模塊、統(tǒng)一數(shù)據(jù)形式模塊、使用模型模塊，以及評(píng)估模塊。

CRUSH4SQL[17]和OpenTab[18]則關(guān)注到開放域的表格推理任務(wù)，通過將任務(wù)分解為先檢索問題相關(guān)表格，再用LLM推理的過程，緩解了大量無關(guān)信息的輸入給模型帶來推理難度增加的問題。在用PLM解決表格推理任務(wù)時(shí)，人們也會(huì)通過將任務(wù)模塊化分解為簡(jiǎn)單子任務(wù)來降低整體任務(wù)難度，但針對(duì)每一個(gè)子任務(wù)都需要額外的訓(xùn)練數(shù)據(jù)單獨(dú)訓(xùn)練一個(gè)模型來解決[32]，而LLM可以很好地利用其上下文學(xué)習(xí)能力及泛化性，不再需要對(duì)每一個(gè)表格類子任務(wù)專門訓(xùn)練。

3.3. 上下文學(xué)習(xí)

上下文學(xué)習(xí)是指LLM在不用微調(diào)的情況下，通過設(shè)計(jì)prompt來增強(qiáng)表格推理能力。研究者們認(rèn)為部分LLM無需微調(diào)就已經(jīng)具備表格推理能力。但由于LLM的表現(xiàn)性能嚴(yán)重依賴于輸入的上下文，如何通過上下文學(xué)習(xí)更好地激發(fā)模型的表格推理能力成為一個(gè)需要研究的問題。

為了增強(qiáng)LLM的上下文學(xué)習(xí)能力，現(xiàn)有的工作主要遵循兩條研究思路：通過設(shè)計(jì)prompt，來直接增強(qiáng)LLM的上下文學(xué)習(xí)能力；通過將推理過程分解為多步，來降低單步LLM的上下文學(xué)習(xí)的難度。

關(guān)于直接設(shè)計(jì)prompt的相關(guān)工作，[19]工作最先探索并證明了LLM具有上下文學(xué)習(xí)的表格推理能力。ODIS[20]觀察到前人工作在上下文學(xué)習(xí)時(shí)不提供示例，或只提供領(lǐng)域外的示例但研究表明，領(lǐng)域內(nèi)示例可以顯著提高LLM性能，因此提出基于SQL相似度合成領(lǐng)域內(nèi)SQL，再用LLM生成對(duì)應(yīng)問題作為領(lǐng)域內(nèi)示例。DAIL-SQL[21]為了系統(tǒng)探索高效prompt工程，提出了基于掩碼后問題的相似度選擇示例，并且省略其數(shù)據(jù)庫模式以減少輸入長(zhǎng)度。而SEER[22]為了解決HybridQA任務(wù)在上下文學(xué)習(xí)中示例選擇的挑戰(zhàn)，尤其是用戶問題和示例中推理路徑的相關(guān)性小的問題，如圖6所示，根據(jù)問題向量之間的相似度，以及分類器預(yù)測(cè)的問題的推理鏈，從數(shù)據(jù)中選擇示例。

圖6：SEER方法示意圖

關(guān)于prompt分解推理過程的工作，MURMUR[23]發(fā)現(xiàn)data-to-text任務(wù)直接提示LLM推理易導(dǎo)致幻覺，而提示CoT推理缺乏推理步驟之間的明確條件，損害正確性，并且以不同的順序線性化數(shù)據(jù)易造成較大的方差。因此，MURMUR提出首先依據(jù)預(yù)先定義的語法規(guī)則在每一步使用束搜索算法選擇可能正確的模型范圍，再根據(jù)打分模型選擇最好的模型，以及相應(yīng)的輸入形式。CHAIN-OF-TABLE[24]則為了降低單跳LLM上下文學(xué)習(xí)的難度，提供給LLM預(yù)定義的表格操作，需要LLM從中選擇一種操作并執(zhí)行構(gòu)成操作鏈。

設(shè)計(jì)prompt的方法和用prompt分解推理過程的方法并不是非此即彼的，二者可以組合使用，提示LLM將分解推理后，通過在每一步設(shè)計(jì)不同的prompt來更好地進(jìn)行推理。

LLM的上下文學(xué)習(xí)能力很好地緩解了PLM對(duì)每個(gè)表格推理任務(wù)都需要大量訓(xùn)練的問題，但也帶來了新的挑戰(zhàn)。由于人們尚不能探明LLM上下文學(xué)習(xí)能力的機(jī)理，所以只能從上下文學(xué)習(xí)帶來表格推理性能提升的角度試圖探索不同的prompt對(duì)不同模型的影響。

3.4. 使用工具

使用工具是指LLM調(diào)用其他工具或模型，從而改進(jìn)表格推理相關(guān)的特定子任務(wù)上的性能。研究者在將復(fù)雜表格推理任務(wù)分解后，發(fā)現(xiàn)LLM并不適用于求解所有子任務(wù)，在諸如檢索、數(shù)值計(jì)算等的任務(wù)上LLM落后于現(xiàn)有工具或方法，造成總體性能不佳。所以如何令LLM使用合適的工具以更好地完成表格推理任務(wù)成為一種挑戰(zhàn)。

目前的研究工作主要分為兩條研究思路：一種LLM調(diào)用的工具是已經(jīng)寫好并封裝的，LLM只需生成調(diào)用工具的代碼，另一種需要LLM分析需求后，根據(jù)具體需求生成代碼，比如python、SQL等來實(shí)現(xiàn)某一模塊或工具的功能。

關(guān)于直接調(diào)用封裝工具的工作，StructGPT[25]觀察到結(jié)構(gòu)化數(shù)據(jù)的數(shù)量過于龐大，很難全部輸入，所以提供了抽取數(shù)據(jù)的接口，如圖7所示，模型通過調(diào)用相應(yīng)接口獲得有效數(shù)據(jù)，再將其輸入模型進(jìn)行推理。[26]為了同時(shí)探索并進(jìn)一步評(píng)估LLM智能體采取行動(dòng)和推理的能力，提出長(zhǎng)對(duì)話的數(shù)據(jù)庫問答任務(wù)，LLM需要先根據(jù)歷史進(jìn)行推理，決定與外部模型的交互策略，再采取行動(dòng)生成具體的交互命令以調(diào)用模型。API[27]在將表格問題翻譯成程序后，通過調(diào)用其它LLM的API實(shí)現(xiàn)了查詢知識(shí)以及對(duì)表格執(zhí)行程序以外的操作。

圖7：BINDER方法示意圖

關(guān)于需要LLM根據(jù)需求實(shí)現(xiàn)工具功能的工作，BINDER[28]注意到神經(jīng)系統(tǒng)缺少可解釋性，而符號(hào)方法被符號(hào)語言的語法限制，但現(xiàn)有的融合方法只針對(duì)特定模型和語言，且需要大量訓(xùn)練數(shù)據(jù)，因此提出首先解析問題中不可以轉(zhuǎn)換成目標(biāo)程序語言的部分，將其調(diào)用大模型的API求解，再將生成結(jié)果集成到編程語言中。ReAcTable[29]注意到根據(jù)問題對(duì)任意表及其列自動(dòng)轉(zhuǎn)化的挑戰(zhàn)性，提出通過每一步令LLM選擇生成不同形式的代碼，并調(diào)用此代碼得到中間結(jié)果的表格，來逐步得到答案。

LLM既可以調(diào)用現(xiàn)成的函數(shù)，也可以先生成代碼接口再調(diào)用，這兩種方法并不沖突，可以被同時(shí)用在LLM的推理過程中。

PLM并不具有使用工具的能力，而LLM借用工具進(jìn)一步增強(qiáng)了模型的專業(yè)能力，但在表格推理過程中，何時(shí)使用工具，使用何種工具，以及如何使用工具成為了新的挑戰(zhàn)。

3.5. 提高魯棒性

魯棒性是指LLM在輸入發(fā)生微小變化時(shí)，依然能保持生成正確結(jié)果的能力（例如：隨機(jī)數(shù)種子、問題中的無意義詞）。經(jīng)過研究發(fā)現(xiàn)LLM在生成答案時(shí)缺少魯棒性會(huì)導(dǎo)致模型性能衰退。為了提升模型魯棒性，研究者們提出一系列方法以提升模型性能。

遵循前人工作，現(xiàn)有的提高LLM表格推理的魯棒性的方法，主要采用先生成多個(gè)結(jié)果，然后從多個(gè)結(jié)果中選取答案的方式。依照該設(shè)計(jì)思路，如圖8所示，LEVER[30]專門訓(xùn)練一個(gè)打分器對(duì)每個(gè)生成的答案進(jìn)行打分，選擇相應(yīng)分?jǐn)?shù)最高的答案作為結(jié)果。而SQLPrompt[31]注意到在固定prompt的情況下，LLM生成結(jié)果的多樣性較差，導(dǎo)致生成結(jié)果可能集中于特定的錯(cuò)誤答案。為了解決這個(gè)問題，SQLPrompt提出根據(jù)多個(gè)prompt分別生成結(jié)果，然后集成，從而避免生成答案集中于特定結(jié)果。

圖8：LEVER方法示意圖

提升模型魯棒性的挑戰(zhàn)在PLM時(shí)代就已經(jīng)存在，之前人們普遍通過額外訓(xùn)練來提升PLM在表格推理任務(wù)上的魯棒性[33]，但LLM時(shí)代人們目前只是通過對(duì)生成結(jié)果的處理來提升表格推理結(jié)果的魯棒性。

4. 未來方向

為了啟發(fā)未來研究，在本節(jié)，我們將介紹如何改進(jìn)各類方法，來提升LLM的表格推理能力。

4.1. 有監(jiān)督微調(diào)

現(xiàn)有方法只考慮到了增強(qiáng)模型在某一領(lǐng)域或某一表格任務(wù)上的性能，或挑選對(duì)應(yīng)不同任務(wù)的數(shù)據(jù)集聯(lián)合訓(xùn)練，所涉及的領(lǐng)域以及難度范圍有限，導(dǎo)致微調(diào)后模型的泛化性也有限。參考WizardLM[34]、WizardCoder[35]，我們期待可以使用LLM蒸餾數(shù)據(jù)，提示LLM產(chǎn)生不同領(lǐng)域、不同任務(wù)、不同難度等級(jí)的大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)，以提升模型在表格推理任務(wù)上的綜合能力以及泛化性。

并且現(xiàn)有方法與其他NLP任務(wù)采用了統(tǒng)一的模型架構(gòu)，并沒有針對(duì)表格任務(wù)做適應(yīng)性修改。參考TaPas[4]，我們可以通過設(shè)計(jì)新的適用于結(jié)構(gòu)化數(shù)據(jù)的模型架構(gòu)來解決表格任務(wù)。

4.2. 模塊化分解

現(xiàn)有方法需要人工預(yù)先將任務(wù)分解為流水線，但這種分解只適用于某一類表格任務(wù)，并不具有普適性，而針對(duì)所有表格任務(wù)的分解又太過概括，并不能很好地降低推理難度。參考ReAct[36]，希望能夠待無需為L(zhǎng)LM解決某一表格問題指定流水線，而是令LLM能夠根據(jù)問題自主將任務(wù)顯示分解，能很好地適用于所有表格任務(wù)并且減少人工參與。

現(xiàn)有方法在將任務(wù)分解后并沒有研究對(duì)分解后的子任務(wù)進(jìn)行改進(jìn)提升，使系統(tǒng)受錯(cuò)誤級(jí)聯(lián)的影響較大，受[37]啟發(fā)，我們希望LLM能夠?qū)Ψ纸獾闹虚g步驟敏感，自主檢測(cè)并修正錯(cuò)誤的中間結(jié)果，進(jìn)一步推理出正確的結(jié)果。

4.3. 上下文學(xué)習(xí)

現(xiàn)有研究均是從有限范圍內(nèi)人工比較或設(shè)計(jì)算法選擇更好的prompt作為輸入，由于比較的范圍有限，所以模型性能的提升也是有限的，并且不適用于可獲取數(shù)據(jù)有限的場(chǎng)景。為了獲得更好的輸入上下文，參考[38]，能夠借助LLM自動(dòng)生成上下文，并根據(jù)表格和任務(wù)對(duì)prompt打分以及優(yōu)化，更好地幫助模型理解并解決這個(gè)問題。

并且現(xiàn)有研究并沒有關(guān)注如何針對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)改進(jìn)LLM的嵌入層。參考[39]，我們期待可以訓(xùn)練一個(gè)適用于LLM的嵌入層，能夠嵌入表格的結(jié)構(gòu)、單元和對(duì)齊的文本描述，更好地編碼結(jié)構(gòu)化數(shù)據(jù)，有助于模型理解表格并推理。

4.4. 使用工具

現(xiàn)有研究沒有關(guān)注到表格推理任務(wù)中面臨的知識(shí)密集場(chǎng)景，不能靈活運(yùn)用外部數(shù)據(jù)進(jìn)行知識(shí)注入。參考WebGPT[40]，我們希望處理專家問題時(shí)LLM能夠自主借助搜索引擎查詢相關(guān)領(lǐng)域內(nèi)知識(shí)，并且將查詢結(jié)果用于計(jì)算或推理。

4.5. 提高魯棒性

現(xiàn)有工作都是針對(duì)模型生成結(jié)果進(jìn)行集成以提升性能，并沒有關(guān)注到推理路徑的多樣性以及對(duì)結(jié)果魯棒性的影響。參考[41]，LLM可以在表格推理的路徑上做集成，充分利用多步推理的中間過程及中間結(jié)果，逐步提升模型的魯棒性。

并且現(xiàn)有方法在對(duì)候選結(jié)果選擇時(shí)，要額外訓(xùn)練小模型對(duì)結(jié)果打分。參考[42]以及[43]，期待可以無需訓(xùn)練，直接使用LLM對(duì)生成結(jié)果進(jìn)行判別、選擇，節(jié)省訓(xùn)練時(shí)間以及成本。

5. 總結(jié)

本文旨在向研究者們提供一份對(duì)LLM時(shí)代表格推理相關(guān)研究的總結(jié)以及展望。為了更好地幫助研究者思考從何種角度提升LLM在表格推理任務(wù)上的性能，我們從方法以及挑戰(zhàn)的角度將現(xiàn)有研究分為5類，并詳細(xì)闡述了我們的分類標(biāo)準(zhǔn)。為了讀者更好地了解表格任務(wù)的現(xiàn)有進(jìn)展，我們從有監(jiān)督微調(diào)、模塊化分解、上下文學(xué)習(xí)、使用工具以及提高魯棒性的角度回顧梳理了現(xiàn)有工作；最后，我們依據(jù)這5類方法討論了未來潛在的改進(jìn)方向，以希望本文可以在LLM時(shí)代如何改進(jìn)表格推理性能方面帶給讀者更多啟發(fā)。

參考文獻(xiàn)

[1]Biehler, R., Frischemeier, D., Reading, C., & Shaughnessy, J. (2018). Reasoning About Data.

[2]Xu, X., Liu, C., & Song, D.X. (2017). SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning. ArXiv, abs/1711.04436.

[3]Pasupat, P., & Liang, P. (2015). Compositional Semantic Parsing on Semi-Structured Tables. Annual Meeting of the Association for Computational Linguistics.

[4]Herzig, J., Nowak, P.K., Müller, T., Piccinno, F., & Eisenschlos, J.M. (2020). TaPas: Weakly Supervised Table Parsing via Pre-training. Annual Meeting of the Association for Computational Linguistics.

[5]Zhao, W.X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., Liu, P., Nie, J., & Wen, J. (2023). A Survey of Large Language Models. ArXiv, abs/2303.18223.

[6]Chen, W., Wang, H., Chen, J., Zhang, Y., Wang, H., LI, S., Zhou, X., & Wang, W.Y. (2019). TabFact: A Large-scale Dataset for Table-based Fact Verification. ArXiv, abs/1909.02164.

[7]Parikh, A.P., Wang, X., Gehrmann, S., Faruqui, M., Dhingra, B., Yang, D., & Das, D. (2020). ToTTo: A Controlled Table-To-Text Generation Dataset. ArXiv, abs/2004.14373.

[8]Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I.Z., Yao, Q., Roman, S., Zhang, Z., & Radev, D.R. (2018). Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. ArXiv, abs/1809.08887.

[9]Hegselmann, S., Buendia, A., Lang, H., Agrawal, M., Jiang, X., & Sontag, D.A. (2022). TabLLM: Few-shot Classification of Tabular Data with Large Language Models. ArXiv, abs/2210.10723.

[10]Zha, L., Zhou, J., Li, L., Wang, R., Huang, Q., Yang, S., Yuan, J., Su, C., Li, X., Su, A., Tao, Z., Zhou, C., Shou, K., Wang, M., Zhu, W., Lu, G., Ye, C., Ye, Y., Ye, W., Zhang, Y., Deng, X., Xu, J., Wang, H., Chen, G., & Zhao, J.J. (2023). TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT. ArXiv, abs/2307.08674.

[11]Zhang, T., Yue, X., Li, Y., & Sun, H. (2023). TableLlama: Towards Open Large Generalist Models for Tables. ArXiv, abs/2311.09206.

[12]Yang, B., Tang, C., Zhao, K., Xiao, C., & Lin, C. (2023). Effective Distillation of Table-based Reasoning Ability from LLMs. ArXiv, abs/2309.13182.

[13]Bian, J., Qin, X., Zou, W., Huang, M., & Zhang, W. (2023). HELLaMA: LLaMA-based Table to Text Generation by Highlighting the Important Evidence. ArXiv, abs/2311.08896.

[14]Ye, Y., Hui, B., Yang, M., Li, B., Huang, F., & Li, Y. (2023). Large Language Models are Versatile Decomposers: Decomposing Evidence and Questions for Table-based Reasoning. Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval.

[15]Pourreza, M.R., & Rafiei, D. (2023). DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction. ArXiv, abs/2304.11015.

[16]Lei, F., Luo, T., Yang, P., Liu, W., Liu, H., Lei, J., Huang, Y., Wei, Y., He, S., Zhao, J., & Liu, K. (2023). TableQAKit: A Comprehensive and Practical Toolkit for Table-based Question Answering. ArXiv, abs/2310.15075.

[17]Kothyari, M., Dhingra, D., Sarawagi, S., & Chakrabarti, S. (2023). CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL. ArXiv, abs/2311.01173.

[18]Anonymous. OPENTAB: ADVANCING LARGE LANGUAGE MODELS AS OPEN-DOMAIN TABLE REASONERS. Submitted to The Twelfth International Conference on Learning Representations.

[19]Chen, W. (2022). Large Language Models are few(1)-shot Table Reasoners. ArXiv, abs/2210.06710.

[20]Chang, S., & Fosler-Lussier, E. (2023). Selective Demonstrations for Cross-domain Text-to-SQL. ArXiv, abs/2310.06302.

[21]Tonglet, J., Reusens, M., Borchert, P., & Baesens, B. (2023). SEER : A Knapsack approach to Exemplar Selection for In-Context HybridQA. ArXiv, abs/2310.06675.

[22]Gao, D., Wang, H., Li, Y., Sun, X., Qian, Y., Ding, B., & Zhou, J. (2023). Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation. ArXiv, abs/2308.15363.

[23]Saha, S., Yu, X.V., Bansal, M., Pasunuru, R., & Celikyilmaz, A. (2022). MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation. ArXiv, abs/2212.08607.

[24]Anonymous. CHAIN-OF-TABLE: EVOLVING TABLES IN THE REASONING CHAIN FOR TABLE UNDERSTANDING. Submitted to The Twelfth International Conference on Learning Representations.

[25]Jiang, J., Zhou, K., Dong, Z., Ye, K., Zhao, W.X., & Wen, J. (2023). StructGPT: A General Framework for Large Language Model to Reason over Structured Data. ArXiv, abs/2305.09645.

[26]Nan, L., Zhang, E., Zou, W., Zhao, Y., Zhou, W., & Cohan, A. (2023). On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering. ArXiv, abs/2311.09721.

[27]Cao, Y., Chen, S., Liu, R., Wang, Z., & Fried, D. (2023). API-Assisted Code Generation for Question Answering on Varied Table Structures. ArXiv, abs/2310.14687.

[28]Cheng, Z., Xie, T., Shi, P., Li, C., Nadkarni, R., Hu, Y., Xiong, C., Radev, D.R., Ostendorf, M., Zettlemoyer, L., Smith, N.A., & Yu, T. (2022). Binding Language Models in Symbolic Languages. ArXiv, abs/2210.02875.

[29]Zhang, Y., Henkel, J., Floratou, A., Cahoon, J., Deep, S., & Patel, J.M. (2023). ReAcTable: Enhancing ReAct for Table Question Answering. ArXiv, abs/2310.00815.

[30]Ni, A., Iyer, S., Radev, D.R., Stoyanov, V., Yih, W., Wang, S.I., & Lin, X.V. (2023). LEVER: Learning to Verify Language-to-Code Generation with Execution. ArXiv, abs/2302.08468.

[31]Sun, R., Arik, S.?., Sinha, R., Nakhost, H., Dai, H., Yin, P., & Pfister, T. (2023). SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data. ArXiv, abs/2311.02883.

[32]Wang, B., Shin, R., Liu, X., Polozov, O., & Richardson, M. (2019). RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers. Annual Meeting of the Association for Computational Linguistics.

[33]Pi, X., Wang, B., Gao, Y., Guo, J., Li, Z., & Lou, J. (2022). Towards Robustness of Text-to-SQL Models Against Natural and Realistic Adversarial Table Perturbation. Annual Meeting of the Association for Computational Linguistics.

[34]Xu, C., Sun, Q., Zheng, K., Geng, X., Zhao, P., Feng, J., Tao, C., & Jiang, D. (2023). WizardLM: Empowering Large Language Models to Follow Complex Instructions. ArXiv, abs/2304.12244.

[35]Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., & Jiang, D. (2023). WizardCoder: Empowering Code Large Language Models with Evol-Instruct. ArXiv, abs/2306.08568.

[36]Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ArXiv, abs/2210.03629.

[37]Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let's Verify Step by Step. ArXiv, abs/2305.20050.

[38]Yang, C., Wang, X., Lu, Y., Liu, H., Le, Q.V., Zhou, D., & Chen, X. (2023). Large Language Models as Optimizers. ArXiv, abs/2309.03409.

[39]Sun, C., Li, Y., Li, H., & Qiao, L. (2023). TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series. ArXiv, abs/2308.08241.

[40]Nakano, R., Hilton, J., Balaji, S.A., Wu, J., Long, O., Kim, C., Hesse, C., Jain, S., Kosaraju, V., Saunders, W., Jiang, X., Cobbe, K., Eloundou, T., Krueger, G., Button, K., Knight, M., Chess, B., & Schulman, J. (2021). WebGPT: Browser-assisted question-answering with human feedback. ArXiv, abs/2112.09332.

[41]Xie, Y., Kawaguchi, K., Zhao, Y., Zhao, X., Kan, M., He, J., & Xie, Q. (2023). Self-Evaluation Guided Beam Search for Reasoning.

[42]Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., Welleck, S., Majumder, B., Gupta, S., Yazdanbakhsh, A., & Clark, P. (2023). Self-Refine: Iterative Refinement with Self-Feedback. ArXiv, abs/2303.17651.

[43]Li, X., Zhu, C., Li, L., Yin, Z., Sun, T., & Qiu, X. (2023). LLatrieval: LLM-Verified Retrieval for Verifiable Generation. ArXiv, abs/2311.07838.

審核編輯：黃飛

閱讀全文

SQL(43410) SQL(43410)
語言模型(9992) 語言模型(9992)
大模型(810) 大模型(810)
LLM(229) LLM(229)

評(píng)論

相關(guān)推薦

SolidWorks表格驅(qū)動(dòng)應(yīng)用詳解

SolidWorks的參數(shù)化功能有多種實(shí)現(xiàn)方式，本文詳細(xì)介紹了利用Excel表格驅(qū)動(dòng)SolidWorks模型的方法：通過Excel輸入?yún)?shù)，利用Excel表格ActiveX控件、方便的數(shù)據(jù)計(jì)算能力，結(jié)合SolidWorks方程式及宏

2011-06-03 18:32:19

17840

如何使用FasterTransformer進(jìn)行單機(jī)及分布式模型推理

最近幾個(gè)月，隨著ChatGPT的現(xiàn)象級(jí)表現(xiàn)，大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具體的實(shí)際業(yè)務(wù)的最后一公里。但是在這個(gè)環(huán)節(jié)中，仍然還有很多已經(jīng)是大家共識(shí)的痛點(diǎn)和訴求，比如：任何

2023-05-18 14:35:17

2000

對(duì)比解碼在LLM上的應(yīng)用

為了改進(jìn)LLM的推理能力，University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實(shí)驗(yàn)表明，所提方法能有效改進(jìn)LLM的推理能力。讓我們走進(jìn)論文一探究竟吧！

2023-09-21 11:37:55

327

大型語言模型的邏輯推理能力探究

最新研究揭示，盡管大語言模型LLMs在語言理解上表現(xiàn)出色，但在邏輯推理方面仍有待提高。為此，研究者們推出了GLoRE，一個(gè)全新的邏輯推理評(píng)估基準(zhǔn)，包含12個(gè)數(shù)據(jù)集，覆蓋三大任務(wù)類型。

2023-11-23 15:05:16

476

低比特量化技術(shù)如何幫助LLM提升性能

針對(duì)大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能，以及新版 OpenVINO 對(duì)于低比特量化技術(shù)的支持。

2023-12-08 15:26:45

554

使用基于Transformers的API在CPU上實(shí)現(xiàn)LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個(gè)創(chuàng)新工具包，可基于英特爾架構(gòu)平臺(tái)，尤其是第四代英特爾至強(qiáng) 可擴(kuò)展處理器（代號(hào) SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

LLM風(fēng)口背后，ChatGPT的成本問題

趁著ChatGPT這一熱門話題還未消退，我們來聊一聊這類大規(guī)模語言模型（LLM）或通用人工智能（AGI）背后的細(xì)節(jié)。畢竟目前相關(guān)的概念股跟風(fēng)大漲，但還是有不少人在持觀望態(tài)度。無論是國外還是國內(nèi)

2023-02-15 01:19:00

4129

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關(guān)知識(shí)，介紹了AscendCL接口加載離線模型，為離線模型準(zhǔn)備數(shù)據(jù)結(jié)構(gòu)以及調(diào)用離線模型進(jìn)行推理的過程。簡(jiǎn)單來說，曻騰的AscendCL的推理工程可以問為

2023-08-24 11:04:14

Dllite_micro （輕量級(jí)的 AI 推理框架）

DLLite-Micro 是一個(gè)輕量級(jí)的 AI 推理框架，可以為 OpenHarmony OS 的輕量設(shè)備和小型設(shè)備提供深度模型的推理能力DLLite-Micro 向開發(fā)者提供清晰、易上手的北向接口

2021-08-05 11:40:11

HarmonyOS/OpenHarmony應(yīng)用開發(fā)-FA模型綜述

/documentation/doc-guides/fa-brief-0000001333640861*附件：HarmonyOSOpenHarmony應(yīng)用開發(fā)-FA模型綜述.docx

2022-12-07 10:39:19

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

使用 MindSpore Lite 推理引擎進(jìn)行模型推理的通用開發(fā)流程。基本概念在進(jìn)行開發(fā)前，請(qǐng)先了解以下概念。張量：它與數(shù)組和矩陣非常相似，是 MindSpore Lite 網(wǎng)絡(luò)運(yùn)算中的基本數(shù)據(jù)

2023-12-14 11:41:13

k210可以采集傳感器的數(shù)據(jù)進(jìn)行模型的推理嗎？

k210可以采集傳感器的數(shù)據(jù)進(jìn)行模型的推理嗎？

2023-09-14 08:52:56

pytorch模型轉(zhuǎn)為rknn后沒有推理結(jié)果

使用rknn的api讀取我的模型，進(jìn)行轉(zhuǎn)換api可以成功轉(zhuǎn)換出rknn模型，但遇到的問題是：我使用測(cè)試數(shù)據(jù)調(diào)用rknn.inference進(jìn)行推理，每一次的輸出結(jié)果都為[array([nan, nan

2023-01-11 18:45:48

【飛凌RK3568開發(fā)板試用體驗(yàn)】RKNN模型推理測(cè)試

研的人工智能協(xié)處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進(jìn)行推理應(yīng)用程序開發(fā)。一、推理應(yīng)用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平臺(tái)

2022-12-08 19:06:16

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

2023-11-05 18:22:42

壓縮模型會(huì)加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡(jiǎn)單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對(duì)推理時(shí)間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

大家是怎么壓榨CNN模型的

【技術(shù)綜述】為了壓榨CNN模型，這幾年大家都干了什么

2019-05-29 14:49:27

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。將權(quán)重轉(zhuǎn)換為 ONNX 文件，然后轉(zhuǎn)換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

怎樣使用PyTorch Hub去加載YOLOv5模型

在Python>=3.7.0環(huán)境中安裝requirements.txt，包括PyTorch>=1.7。模型和數(shù)據(jù)集從最新的 YOLOv5版本自動(dòng)下載。簡(jiǎn)單示例此示例從

2022-07-22 16:02:42

怎樣去解決rk1808相同模型推理速度變慢的問題呢

　　rk1808 相同模型速度變慢：　　rknn_server 0.9.4 （2078225 build： 2019-03-07 20:07:28）　　librknn_runtime version

2022-04-21 11:36:29

有限集模型預(yù)測(cè)控制策略綜述

有限集模型預(yù)測(cè)控制的綜述

2019-11-20 11:27:46

求助，為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能？

生成兩個(gè) IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運(yùn)行更多樣化的權(quán)重是否會(huì)影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

深度剖析OpenHarmony AI調(diào)度管理與推理接口

│││├── threadpool #線程池管理│││└── time #時(shí)間接口││├── protocol│││├── data_channel#推理數(shù)據(jù)通道管理

2022-03-25 11:15:36

特征選擇在減少預(yù)測(cè)推理時(shí)間方面的有效性展示

(indices=True)我們使用元估計(jì)器的重要性權(quán)重（線性模型的系數(shù)）從訓(xùn)練數(shù)據(jù)中選擇重要特征。這是一種簡(jiǎn)單而快速的選擇特征的方法，因?yàn)槲覀兲幚砗蟮?b class="flag-6" style="color: red">數(shù)據(jù)可以使用通常應(yīng)用于表格回歸任務(wù)的相同技術(shù)來執(zhí)行。在直接

2022-09-07 14:46:38

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實(shí)現(xiàn)通用模型的部署。本文主要實(shí)現(xiàn)用tflite接口調(diào)用tensorflow模型進(jìn)行推理。相關(guān)源碼見鏈接引言本文為系列博客

2021-12-22 06:51:18

請(qǐng)問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計(jì)算嗎？

2023-09-14 08:13:24

請(qǐng)問在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

讀取excel表格數(shù)據(jù)問題

目前在聯(lián)系excel表格的相關(guān)操作，但是出現(xiàn)個(gè)問題，不知道為何，當(dāng)我讀取excel表格數(shù)據(jù)時(shí)，每次讀出來的都是空的，沒有數(shù)據(jù)。程序如下：excel表格的sheet1里面是有數(shù)據(jù)的，sheet號(hào)輸入的是1。

2017-02-10 08:19:23

概率XML數(shù)據(jù)模型的綜述

首先介紹了概率XML數(shù)據(jù)管理技術(shù)的概念，特點(diǎn)和挑戰(zhàn)；其次綜述了概率XML數(shù)據(jù)和概率XML數(shù)據(jù)模型，各種模型的核心思想都來自于可能世界模型，通過選擇孩子節(jié)點(diǎn)以及刪除節(jié)點(diǎn)可得到一

2011-12-26 11:08:39

反激式開關(guān)電源電子的數(shù)據(jù)表格

反激式開關(guān)電源電子的數(shù)據(jù)表格

2017-09-12 15:09:40

逼真生成表格式數(shù)據(jù)的非時(shí)間屬性關(guān)聯(lián)模型

針對(duì)數(shù)據(jù)仿真過程中表格數(shù)據(jù)屬性間關(guān)聯(lián)難的問題，提出一種刻畫表格數(shù)據(jù)中非時(shí)間屬性間關(guān)聯(lián)特征的H模型。首先，從數(shù)據(jù)集中提取評(píng)價(jià)主體和被評(píng)價(jià)主體關(guān)鍵屬性，進(jìn)行兩重頻數(shù)統(tǒng)計(jì)，得到關(guān)于關(guān)鍵屬性的4個(gè)關(guān)系

2017-11-28 11:48:18

一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型

數(shù)據(jù)中心網(wǎng)絡(luò)需要更加高效的推理模型提升流簇大小判斷的準(zhǔn)確性和敏感性。提岀了一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型（ Mlcoflow），利用極限學(xué)習(xí)杋（ELM）以最小訓(xùn)練誤差為求解目標(biāo)建立推理模型，并且使用不完全信息建模以提升敏感度。實(shí)驗(yàn)證

2021-04-02 11:38:16

跨媒體數(shù)據(jù)分析與推理技術(shù)綜述

當(dāng)前，以網(wǎng)絡(luò)數(shù)據(jù)為代表的跨媒體數(shù)據(jù)呈現(xiàn)爆炸式増長(zhǎng)的趨勢(shì)，呈現(xiàn)岀了跨模態(tài)、跨數(shù)據(jù)源的復(fù)雜關(guān)聯(lián)及動(dòng)態(tài)演化特性，跨媒體分析與推理技術(shù)針對(duì)多模態(tài)信息理解、交互、內(nèi)容管理等需求，通過枃建跨模態(tài)、跨平臺(tái)

2021-04-08 10:29:08

基于深度學(xué)習(xí)的文本主題模型研究綜述

2021-06-24 11:49:18

文本挖掘之概率主題模型綜述

2021-06-24 14:16:54

基于模板驅(qū)動(dòng)的神經(jīng)機(jī)器翻譯模型綜述

2021-06-24 15:31:35

基于主題模型的Web服務(wù)聚類方法綜述

2021-06-24 16:47:23

面向?qū)W分銀行的區(qū)塊鏈學(xué)習(xí)成果管控模型綜述

2021-06-25 15:46:56

基于變量依賴關(guān)系模型的變量重要性度量綜述

2021-07-02 14:44:08

抖動(dòng)按鍵技術(shù)及雙狄拉克模型綜述

2021-07-16 14:15:22

車輛側(cè)滑角估計(jì)：方法、模型和創(chuàng)新文獻(xiàn)綜述

2021-07-18 09:15:56

深度學(xué)習(xí)工程之道|MegEngine推理性能優(yōu)化技術(shù)綜述，CPU上極限加速

MegEngine「訓(xùn)練推理一體化」的獨(dú)特范式，通過靜態(tài)圖優(yōu)化保證模型精度與訓(xùn)練時(shí)一致，無縫導(dǎo)入推理側(cè)，再借助工業(yè)驗(yàn)證的高效卷積優(yōu)化技術(shù)...

2022-02-07 10:59:49

基于e-CARE的因果推理相關(guān)任務(wù)

因果推理是人類的一項(xiàng)核心認(rèn)知能力。借助因果推理能力，人類得以理解已觀測(cè)到的各種現(xiàn)象，并預(yù)測(cè)將來可能發(fā)生的事件。然而，盡管當(dāng)下的各類因果推理模型已經(jīng)在現(xiàn)有的因果推理數(shù)據(jù)集上取得了令人印象深刻的性能，然而，這些模型與人類的因果推理能力相比仍存在顯著差距。

2022-05-16 16:21:26

1081

BLIP-2：下一代多模態(tài)模型的雛形

眾所周知，NLP領(lǐng)域一直領(lǐng)先于CV領(lǐng)域的發(fā)展。得益于更豐富的語料庫，NLP領(lǐng)域的已經(jīng)擁有了一些具有初步推理能力模型的研究，特別是LLM大模型的出現(xiàn)。

2023-03-02 13:54:42

1620

LeCun新作：全面綜述下一代「增強(qiáng)語言模型」

最近圖靈獎(jiǎng)得主Yann LeCun參與撰寫了一篇關(guān)于「增強(qiáng)語言模型」的綜述，回顧了語言模型與推理技能和使用工具的能力相結(jié)合的工作，并得出結(jié)論，這個(gè)新的研究方向有可能解決傳統(tǒng)語言模型的局限性，如可解釋性、一致性和可擴(kuò)展性問題。

2023-03-03 11:03:20

673

GTC 2023：多模態(tài)短視頻模型推理優(yōu)化方案解析

　　多卡推理--流水線并行：將模型和數(shù)據(jù)切分，以流水線形式計(jì)算，提高GPU利用率。模型切分策略：依照各部分的計(jì)算時(shí)間和參數(shù)量設(shè)計(jì)。

2023-03-23 18:17:33

1921

利用大語言模型做多模態(tài)任務(wù)

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。

2023-05-10 16:53:15

701

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究?jī)r(jià)值的。

2023-05-11 17:09:16

648

LLM性能的主要因素

目前主要的模型的參數(shù) LLaMA系列是否需要擴(kuò)中文詞表不同任務(wù)的模型選擇影響LLM性能的主要因素 Scaling Laws for Neural Language Models OpenAI的論文

2023-05-22 15:26:20

1148

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口

2023-05-22 15:57:33

466

中國研究人員提出StructGPT，提高LLM對(duì)結(jié)構(gòu)化數(shù)據(jù)的零樣本推理能力

盡管結(jié)構(gòu)化數(shù)據(jù)的體量往往非常巨大，但不可能容納輸入提示中的所有數(shù)據(jù)記錄（例如，ChatGPT 的最大上下文長(zhǎng)度為 4096）。將結(jié)構(gòu)化數(shù)據(jù)線性化為 LLM 可以輕松掌握的語句是解決此問題的簡(jiǎn)單方法。工具操作技術(shù)激勵(lì)他們?cè)鰪?qiáng) LLM 解決上述困難的能力。

2023-05-24 16:02:16

2156

大型語言模型（LLM）的自定義訓(xùn)練：包含代碼示例的詳細(xì)指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關(guān)注。但是，要根據(jù)特定任務(wù)或領(lǐng)域定制LLM，定制培訓(xùn)是必要的。本文提供了有關(guān)自定義訓(xùn)練 LLM 的詳細(xì)分步指南，其中包含代碼示例和示例。

2023-06-12 09:35:43

1782

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣，但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測(cè)試大語言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型語言模型（LLM）的內(nèi)部機(jī)制

工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對(duì)改進(jìn)模型和減輕其故障（如幻覺或推理錯(cuò)誤）至關(guān)重要。眾所周知，最近 LLM 成功的一個(gè)重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對(duì)這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu)，特別

2023-06-25 15:08:49

991

如何使用NVIDIA Triton 推理服務(wù)器來運(yùn)行推理管道

使用集成模型在 NVIDIA Triton 推理服務(wù)器上為 ML 模型管道提供服務(wù)

2023-07-05 16:30:34

1082

最新綜述！當(dāng)大型語言模型（LLM）遇上知識(shí)圖譜：兩大技術(shù)優(yōu)勢(shì)互補(bǔ)

LLM 是黑箱模型，缺乏可解釋性，因此備受批評(píng)。LLM 通過參數(shù)隱含地表示知識(shí)。因此，我們難以解釋和驗(yàn)證 LLM 獲得的知識(shí)。此外，LLM 是通過概率模型執(zhí)行推理，而這是一個(gè)非決斷性的過程。對(duì)于 LLM 用以得出預(yù)測(cè)結(jié)果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

適用于各種NLP任務(wù)的開源LLM的finetune教程~

ChatGLM2-6b是清華開源的小尺寸LLM，只需要一塊普通的顯卡(32G較穩(wěn)妥)即可推理和微調(diào)，是目前社區(qū)非常活躍的一個(gè)開源LLM。

2023-07-24 09:04:22

1311

三種主流模型部署框架YOLOv8推理演示

深度學(xué)習(xí)模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個(gè)主流框架，均支持Python與C++的SDK使用。對(duì)YOLOv5~YOLOv8的系列模型，均可以通過C++推理實(shí)現(xiàn)模型

2023-08-06 11:39:17

1677

MLC-LLM的編譯部署流程

MLC-LLM部署在各種硬件平臺(tái)的需求，然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經(jīng)支持的Raven系列模型的特殊之處。 MLC-LLM的編譯部署流程

2023-09-04 09:22:46

1569

檢索增強(qiáng)LLM的方案全面的介紹

分分享了 ChatGPT 這類模型是如何一步一步訓(xùn)練的，后半部分主要分享了 LLM 模型的一些應(yīng)用方向，其中就對(duì)檢索增強(qiáng) LLM 這個(gè)應(yīng)用方向做了簡(jiǎn)單介紹。

2023-09-08 16:39:55

799

大語言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

model 訓(xùn)練完成后，使用 instruction 以及其他高質(zhì)量的私域數(shù)據(jù)集來提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來讓model 對(duì)齊人類價(jià)值觀的一種強(qiáng)大技術(shù)；pre-training dataset 是大模型在訓(xùn)練時(shí)真正喂給 model 的數(shù)據(jù)，從很多 paper 能看到一些觀

2023-09-19 10:00:06

506

從原理到代碼理解語言模型訓(xùn)練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質(zhì)，無論預(yù)訓(xùn)練、微調(diào)還是在推理階段，核心都是next token prediction，也就是以自回歸的方式從左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm對(duì)大模型推理的流程及優(yōu)化方案

在 MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s）中提到要使用mlc-llm部署模型首先需要一個(gè)編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

主流大模型推理框架盤點(diǎn)解析

vLLM是一個(gè)開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實(shí)現(xiàn)了比HuggingFace Transformers高14-24倍的吞吐量。

2023-10-10 15:09:58

1556

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換成算能芯片上運(yùn)行的bmodel模型。由于浮點(diǎn)數(shù)的計(jì)算需要消耗更多的計(jì)算資源和存儲(chǔ)空間，實(shí)際應(yīng)用中往往采用量化后的模型（也稱定點(diǎn)模型）進(jìn)行推理。相比

2023-10-10 10:17:42

484

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個(gè)名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對(duì)相同硬件一輪又一輪改進(jìn)

2023-10-23 16:10:19

284

周四研討會(huì)預(yù)告 | 注冊(cè)報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)，將幫助您了解 NVIDIA 開源大型語言模型（LLM）推理加速庫 TensorRT-LLM ?及其功能

2023-10-26 09:05:02

174

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Models）的推理

2023-10-27 20:05:02

478

知識(shí)圖譜與大模型結(jié)合方法概述

；3）LLM+KG協(xié)同使用，主要用于知識(shí)表示和推理兩個(gè)方面。該文綜述了以上三個(gè)路線的代表性研究，探討了未來可能的研究方向。知識(shí)圖譜（KG）和大語言模型（LLM）都是知識(shí)的表示

2023-10-29 15:50:01

530

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B

2023-11-01 17:48:42

422

使用MLC-LLM支持RWKV-5推理的過程思考

對(duì)LLM的理解比較有限，從代碼實(shí)現(xiàn)的角度來說，RWKV的狀態(tài)和KV Cache不同，不依賴序列長(zhǎng)度，這讓RWKV模型在各種長(zhǎng)度下運(yùn)行內(nèi)存和運(yùn)行速度都是趨于穩(wěn)定的，所以我感覺工程價(jià)值是比基于Transformer架構(gòu)比如Llama更好的，部署的性價(jià)比會(huì)天然更優(yōu)。

2023-11-19 15:58:57

502

LLM的幻覺問題最新綜述

幻覺被描述為無意義或不忠實(shí)于所提供源內(nèi)容的生成內(nèi)容。根據(jù)與源內(nèi)容的矛盾，這些幻覺又進(jìn)一步分為內(nèi)在幻覺和外在幻覺。在LLMs中，幻覺的范圍包含了一個(gè)更廣泛、更全面的概念，主要集中在事實(shí)錯(cuò)誤上。本文重新定義了幻覺的分類，為LLM應(yīng)用程序提供了一個(gè)更定制的框架。

2023-11-22 17:40:41

467

澎峰科技發(fā)布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發(fā)布chatGPT之后，基于 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的語言大模型（LLM）引發(fā)了全世界的注意與追捧，成為了人工智能領(lǐng)域的里程碑事件。但大模型推理所需

2023-11-25 15:35:01

383

Long-Context下LLM模型架構(gòu)全面介紹

隨著ChatGPT的快速發(fā)展，基于Transformer的大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路，并已應(yīng)用于知識(shí)庫、人機(jī)界面和動(dòng)態(tài)代理等不同領(lǐng)域。然而，存在一個(gè)普遍

2023-11-27 17:37:36

440

LLM真的能推理和規(guī)劃嗎？

在研究人員選擇的模型中，GPT-3 davinci（非指令微調(diào)）、GPT-3 textdavinci-001（指令微調(diào)）和GPT-3 textdavinci-003（InstructGPT）都是以前觀察到過涌現(xiàn)能力的模型。這一選擇主要是出于模型可用性的考慮。

2023-11-30 09:45:30

260

怎樣使用Accelerate庫在多GPU上進(jìn)行LLM推理呢？

大型語言模型(llm)已經(jīng)徹底改變了自然語言處理領(lǐng)域。隨著這些模型在規(guī)模和復(fù)雜性上的增長(zhǎng)，推理的計(jì)算需求也顯著增加。

2023-12-01 10:24:52

396

用上這個(gè)工具包，大模型推理性能加速達(dá)40倍

工具包中的LLM Runtime為諸多模型顯著降低時(shí)延，且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍，還能滿足更多場(chǎng)景應(yīng)用需求。英特爾 ?Extension

2023-12-01 20:40:03

552

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

背景介紹大語言模型正以其驚人的新能力推動(dòng)人工智能的發(fā)展，擴(kuò)大其應(yīng)用范圍。然而，由于這類模型具有龐大的參數(shù)規(guī)模，部署和推理的難度和成本極高，這一挑戰(zhàn)一直困擾著 AI 領(lǐng)域。此外，當(dāng)前存在大量支持模型

2023-12-04 20:25:01

419

全面解析大語言模型（LLM）

internal feedback：使用LLM去預(yù)測(cè)生成的plan取得成功的概率、Tree of Thought去對(duì)比不同的plan（有點(diǎn)類似AlphaGo的蒙特卡諾搜索的意思）、對(duì)中間結(jié)果進(jìn)行評(píng)估并作為長(zhǎng)期記憶存儲(chǔ)

2023-12-05 14:49:47

857

一文詳解LLM模型基本架構(gòu)

LLM 中非常重要的一個(gè)概念是 Token，我們輸入給 LLM 和它輸出的都是 Token。Token 在這里可以看做語言的基本單位，中文一般是詞或字（其實(shí)字也是詞）。比如：”我們喜歡 Rust

2023-12-25 10:38:38

657

優(yōu)于10倍參數(shù)模型！微軟發(fā)布Orca 2 LLM

微軟發(fā)布 Orca 2 LLM，這是 Llama 2 的一個(gè)調(diào)優(yōu)版本，性能與包含 10 倍參數(shù)的模型相當(dāng)，甚至更好。

2023-12-26 14:23:16

247

自動(dòng)駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將文本與相應(yīng)的視頻對(duì)齊以及語音檢測(cè)。

2023-12-28 11:45:21

151

2023年大語言模型(LLM)全面調(diào)研：原理、進(jìn)展、領(lǐng)跑者、挑戰(zhàn)、趨勢(shì)

大型語言模型(LLM)是基于人工智能的先進(jìn)模型，經(jīng)過訓(xùn)練，它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學(xué)習(xí)技術(shù)和大量訓(xùn)練數(shù)據(jù)來全面理解語言結(jié)構(gòu)、語法、上下文和語義。

2024-01-03 16:05:25

441

首個(gè)無需依賴SAM的高效像素級(jí)推理大模型PixelLM問世

進(jìn)一步，為了支持這一研究領(lǐng)域的模型訓(xùn)練和評(píng)估，研究團(tuán)隊(duì)在LVIS數(shù)據(jù)集的基礎(chǔ)之上，借助GPT-4V構(gòu)建了一個(gè)面向多目標(biāo)推理分割場(chǎng)景的數(shù)據(jù)集MUSE，它包含20萬個(gè)以上的問題-答案對(duì)，涉及90萬個(gè)以上的實(shí)例分割掩碼。

2024-01-04 15:08:12

250

安霸發(fā)布N1系列生成式AI芯片支持前端設(shè)備運(yùn)行本地LLM應(yīng)用

單顆 SoC 支持 1 至 340 億參數(shù)的多模態(tài)大模型（Multi-Modal LLM）推理，實(shí)現(xiàn)前端低功耗生成式 AI。

2024-01-09 15:19:33

597

關(guān)于大模型在軟件測(cè)試領(lǐng)域應(yīng)用的全面綜述

大模型（LLM）由于其卓越的自然語言理解、推理等能力，已經(jīng)被應(yīng)用于各種場(chǎng)景，取得了前所未有的效果。

2024-01-18 09:33:50

1157

2023年LLM大模型研究進(jìn)展

作為做LLM應(yīng)用的副產(chǎn)品，我們提出了RLCD[11]，通過同時(shí)使用正例和負(fù)例prompt，自動(dòng)生成帶標(biāo)簽的生成樣本不需人工標(biāo)注，然后可以接大模型微調(diào)，或者用于訓(xùn)練reward models

2024-01-19 13:55:33

178

LLM推理加速新范式！推測(cè)解碼（Speculative Decoding）最新綜述

這個(gè)問題隨著LLM規(guī)模的增大愈發(fā)嚴(yán)重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個(gè)解碼步只能生成一個(gè)token。這導(dǎo)致GPU計(jì)算資源利用率

2024-01-29 15:54:24

261

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動(dòng)，超越了傳統(tǒng)GPU和谷歌TPU。

2024-02-26 10:24:46

289

100%在樹莓派上執(zhí)行的LLM項(xiàng)目

ChatGPT的人性口語化回復(fù)相信許多人已體驗(yàn)過，也因此掀起一波大型語言模型（Large Language Model, LLM）熱潮，LLM即ChatGPT背后的主運(yùn)作技術(shù)，但LLM運(yùn)作需要龐大運(yùn)算力，因此目前多是在云端（Cloud）上執(zhí)行。

2024-02-29 16:29:59

476

OpenVINO?助力谷歌大語言模型Gemma實(shí)現(xiàn)高速智能推理

大型語言模型（LLM）正在迅速發(fā)展，變得更加強(qiáng)大和高效，使人們能夠在廣泛的應(yīng)用程序中越來越復(fù)雜地理解和生成類人文本。

2024-03-17 17:17:08

504

深度探討VLMs距離視覺演繹推理還有多遠(yuǎn)？

通用大型語言模型（LLM）推理基準(zhǔn)：研究者們介紹了多種基于文本的推理任務(wù)和基準(zhǔn)，用于評(píng)估LLMs在不同領(lǐng)域（如常識(shí)、數(shù)學(xué)推理、常識(shí)推理、事實(shí)推理和編程）的性能。這些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。

2024-03-19 14:32:55

已全部加載完成

搜索歷史

基于LLM的表格數(shù)據(jù)的大模型推理綜述

評(píng)論