女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

當LLM遇到Database:阿里達摩院聯合HKU推出Text-to-SQL新基準?

AI智勝未來 ? 來源:機器之心 ? 2023-06-08 17:09 ? 次閱讀

在新基準 BIRD 上,ChatGPT 僅能達到 40.08%,相比人類 92.96% 還有很大差距。

背景

大模型(LLM)為通用人工智能(AGI)的發展提供了新的方向,其通過海量的公開數據,如互聯網、書籍等語料進行大規模自監督訓練,獲得了強大的語言理解、語言生成、推理等能力。然而,大模型對于私域數據的利用仍然面臨一些挑戰,私域數據是指由特定企業或個人所擁有的數據,通常包含了領域特定的知識,將大模型與私域知識進行結合,將會發揮巨大價值。

私域知識從數據形態上又可以分為非結構化與結構化數據。對于非結構化數據,例如文檔,通常都通過檢索的方式進行增強,可以利用 langchain 等工具可以快速實現問答系統。而結構化數據,如數據庫(DB),則需要大模型與數據庫進行交互,查詢和分析來獲取有用的信息。圍繞大模型與數據庫,近期也衍生出一系列的產品與應用,譬如利用 LLM 打造智能數據庫、執行 BI 分析、完成自動表格構建等。其中,text-to-SQL 技術,即以自然語言的方式與數據庫進行交互,一直以來都是一個備受期待的方向。

在學術界,過去的 text-to-SQL 基準僅關注小規模數據庫,最先進的 LLM 已經可以達到 85.3% 的執行準確率,但這是否意味著 LLM 已經可以作為數據庫的自然語言接口

新一代數據集

最近,阿里巴巴聯合香港大學等機構推出了面向大規模真實數據庫的全新基準 BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs), 包含 95 個大規模數據庫及高質量的 Text-SQL pair,數據存儲量高達 33.4 GB。之前最優的模型在 BIRD 上評估僅達到 40.08%,與人類 92.96% 的結果還有很大差距,這證明挑戰仍然存在。除了評估 SQL 正確性外,作者還增加了 SQL 執行效率的評估,期待模型不僅可以寫正確的 SQL,還能夠寫出高效的 SQL。

567bdfb4-05db-11ee-962d-dac502259ad0.png

論文:https://arxiv.org/abs/2305.03111

主頁:https://bird-bench.github.io

代碼:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird

568f9482-05db-11ee-962d-dac502259ad0.png

目前,BIRD 的數據、代碼、榜單都已經開源,在全球的下載量已超10000。BIRD在推出之始,就引發了 Twitter 上的廣泛關注與討論。

569c81c4-05db-11ee-962d-dac502259ad0.png

56aadfb2-05db-11ee-962d-dac502259ad0.png

海外用戶的評論也非常精彩:

56c4c094-05db-11ee-962d-dac502259ad0.png

不容錯過的 LLM 項目

56d19166-05db-11ee-962d-dac502259ad0.png

非常有用的檢查點,提升的溫床

56dbc118-05db-11ee-962d-dac502259ad0.png

AI 可以幫助你,但還不能取代你

56e8ef00-05db-11ee-962d-dac502259ad0.png

我的工作暫時是安全的...

56523204-05db-11ee-962d-dac502259ad0.jpg

方法概述

565e5dae-05db-11ee-962d-dac502259ad0.jpg???

新的挑戰

該研究主要面向真實數據庫的 Text-to-SQL 評估,過去流行的測試基準,比如 Spider 和 WikiSQL,僅關注具有少量數據庫內容的數據庫 schema,導致學術研究與實際應用之間存在鴻溝。BIRD 重點關注海量且真實的數據庫內容、自然語言問題與數據庫內容之間的外部知識推理以及在處理大型數據庫時 SQL 的效率等新三個挑戰。

570850c0-05db-11ee-962d-dac502259ad0.png

首先,數據庫包含海量且嘈雜數據的值。在左側示例中,平均工資的計算需要通過將數據庫中的字符串(String)轉化為浮點值 (Float) 之后再進行聚合計算(Aggregation);

其次,外部知識推斷是很必要的,在中間示例中,為了能準確地為用戶返回答案,模型必須先知道有貸款資格的賬戶類型一定是 “擁有者”(“OWNER”),這代表巨大的數據庫內容背后隱藏的奧秘有時需要外部知識和推理來揭示;

最后,需要考慮查詢執行效率。在右側示例中,采用更高效的 SQL 查詢可以顯著提高速度,這對于工業界來講具有很大價值,因為用戶不僅期待寫出正確的 SQL,還期待 SQL 執行的高效,尤其是在大型數據庫的情況下;

數據標注

BIRD 在標注的過程中解耦了問題生成和 SQL 標注。同時加入專家來撰寫數據庫描述文件,以此幫助問題和 SQL 標注人員更好的理解數據庫。

57132e96-05db-11ee-962d-dac502259ad0.png

1. 數據庫采集:作者從開源數據平臺(如 Kaggle 和 CTU Prague Relational Learning Repository)收集并處理了 80 個數據庫。通過收集真實表格數據、構建 ER 圖以及設置數據庫約束等手動創建了 15 個數據庫作為黑盒測試,來避免當前數據庫被當前的大模型學習過。BIRD 的數據庫包含了多個領域的模式和值, 37 個領域,涵蓋區塊鏈、體育、醫療、游戲等。

2. 問題收集:首先作者雇傭專家先為數據庫撰寫描述文件,該描述文件包括完整的表明列名、數據庫值的描述,以及理解值所用到的外部知識等。然后招募了 11 個來自美國,英國,加拿大,新加坡等國家的 native speaker 為 BIRD 產生問題。每一位 speaker 都至少具備本科及以上的學歷。

3.SQL 生成:面向全球招募了由數據工程師和數據庫課程學生組成的標注團隊為 BIRD 生成 SQL。在給定數據庫和參考數據庫描述文件的情況下,標注人員需生成 SQL 以正確回答問題。采用雙盲(Double-Blind)標注方法,要求兩位標注人員對同一個問題進行標注。雙盲標注可以最大程度減少單一標注人員所帶來的錯誤。

4. 質量檢測:質量檢測分為結果執行的有效性和一致性兩部分。有效性不僅要求執行的正確性,還要求執行結果不能是空值(NULL)。專家將逐步修改問題條件,直至 SQL 執行結果有效。

5. 難度劃分:text-to-SQL 的難度指標可以為研究人員提供優化算法的參考。Text-to-SQL 的難度不僅取決于 SQL 的復雜程度,還與問題難度、額外知識易理解程度以及數據庫復雜程度等因素有關。因此作者要求 SQL 標注人員在標注過程中對難易程度進行評分,并將難度分為三類:簡單、適中和具有挑戰性。

數據統計

1. 問題類型統計:問題分為兩大類,基礎問題類型(Fundamental Type)和推理問題類型(Reasoning Type)。基礎問題類型包括傳統 Text-to-SQL 數據集中涵蓋的問題類型,而推理問題類型則包括需要外部知識來理解值的問題:

571f9686-05db-11ee-962d-dac502259ad0.png

2. 數據庫分布:作者用 sunburst 圖顯示了數據庫 domain 及其數據量大小之間的關系。越大的半徑意味著,基于該數據庫的 text-SQL 較多,反之亦然。越深的顏色則是指該數據庫 size 越大,比如 donor 是該 benchmark 中最大的數據庫,所占空間: 4.5GB。

572ef6f8-05db-11ee-962d-dac502259ad0.png

3.SQL 分布:作者通過 SQL 的 token 數量,關鍵詞數量,n-gram 類型數量,JOIN 的數量等 4 個維度來證明 BIRD 的 SQL 是迄今為止最多樣最復雜的。

573f273a-05db-11ee-962d-dac502259ad0.png

評價指標

1. 執行準確率:對比模型預測的 SQL 執行結果與真實標注 SQL 執行結果的差異;

2. 有效效率分數:同時考慮 SQL 的準確性與高效性,對比模型預測的 SQL 執行速度與真實標注 SQL 執行速度的相對差異,將運行時間視為效率的主要指標。

實驗分析

作者選擇了在之前基準測試中,表現突出的訓練式 T5 模型和大型語言模型(LLM)作為基線模型:Codex(code-davinci-002)和 ChatGPT(gpt-3.5-turbo)。為了更好地理解多步推理是否能激發大型語言模型在真實數據庫環境下的推理能力,還提供了它們的思考鏈版本(Chain-of-Thought)。并在兩種設置下測試基線模型:一種是完全的 schema 信息輸入,另一種是人類對涉及問題的數據庫值的理解,總結成自然語言描述(knowledge evidence)輔助模型理解數據庫。

574b48bc-05db-11ee-962d-dac502259ad0.png

作者給出了一些結論:

1. 額外知識的增益:增加對數據庫值理解的知識(knowledge evidence)有明顯的效果提升,這證明在真實的數據庫場景中,僅依賴語義解析能力是不夠的,對數據庫值的理解會幫助用戶更準確地找到答案。

2. 思維鏈不一定完全有益:在模型沒有給定數據庫值描述和零樣本(zero-shot)情況下,模型自身的 COT 推理可以更準確地生成答案。然而,當給定額外的知識(knowledge evidence)后,讓 LLM 進行 COT,發現效果并不顯著,甚至會下降。因此在這個場景中, LLM 可能會產生知識沖突。如何解決這種沖突,使模型既能接受外部知識,又能從自身強大的多步推理中受益,將是未來重點的研究方向。

3. 與人類的差距:BIRD 還提供了人類指標,作者以考試的形式測試標注人員在第一次面對測試集的表現,并將其作為人類指標的依據。實驗發現,目前最好的 LLM 距離人類仍有較大的差距,證明挑戰仍然存在。作者執行了詳細的錯誤分析,給未來的研究提供了一些潛在的方向。

57633bfc-05db-11ee-962d-dac502259ad0.png

結論

LLM 在數據庫領域的應用將為用戶提供更智能、更便捷的數據庫交互體驗。BIRD 的出現將推動自然語言與真實數據庫交互的智能化發展,為面向真實數據庫場景的 text-to-SQL 技術提供了進步空間,有助于研究人員開發更先進、更實用的數據庫應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據庫
    +關注

    關注

    7

    文章

    3893

    瀏覽量

    65695
  • 自然語言
    +關注

    關注

    1

    文章

    291

    瀏覽量

    13586
  • 阿里達摩院
    +關注

    關注

    0

    文章

    30

    瀏覽量

    3424
  • LLM
    LLM
    +關注

    關注

    1

    文章

    318

    瀏覽量

    668

原文標題:當LLM遇到Database:阿里達摩院聯合HKU推出Text-to-SQL新基準?

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    普華基礎軟件蒞臨阿里巴巴達摩調研交流

    近日, 普華基礎軟件股份有限公司(以下簡稱普華基礎軟件)董事、總經理劉宏倩一行前往阿里巴巴達摩(杭州)科技有限公司(以下簡稱達摩)調研交
    的頭像 發表于 04-08 10:10 ?368次閱讀

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發表于 03-05 08:07

    廣和通攜手阿里推出隨身智能解決方案

    2月,廣和通與全球領先的云解決方案提供商阿里云達成合作:廣和通AI模組及解決方案,基于阿里云通義千問大模型,推出“隨身智能解決方案”,賦能消費電子行業。
    的頭像 發表于 02-25 16:04 ?411次閱讀

    鯤云科技與中國工業互聯網研究成立AI+安全生產聯合實驗室

    在 2025 年 1 月 14 日舉行的智算創新研究開業盛典上,鯤云科技與中國工業互聯網研究(以下簡稱“工聯”)正式宣布聯合成立“AI+安全生產
    的頭像 發表于 01-14 18:01 ?894次閱讀

    MLCommons推出AI基準測試0.5版

    開放式機器學習工程聯盟 MLCommons 在美國加州當地時間公布推出適用于消費類 PC 的 AI 性能的 MLPerf Client 基準測試的 0.5 版,這是該測試的第一個公開版本
    的頭像 發表于 12-12 16:47 ?709次閱讀

    什么是LLMLLM在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現,標志著我們對語言理解能力的一次飛躍。LLM通過深度學習和海量數據訓練,使得機器能夠以前
    的頭像 發表于 11-19 15:32 ?3255次閱讀

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練LLM模型的一般步驟,以及一些關鍵考慮因素: 定義目標和需求 : 確定你的LLM將用
    的頭像 發表于 11-08 09:30 ?1337次閱讀

    LLM技術對人工智能發展的影響

    隨著人工智能技術的飛速發展,大型語言模型(LLM)技術已經成為推動AI領域進步的關鍵力量。LLM技術通過深度學習和自然語言處理技術,使得機器能夠理解和生成自然語言,極大地擴展了人工智能的應用范圍
    的頭像 發表于 11-08 09:28 ?1744次閱讀

    LLM和傳統機器學習的區別

    在人工智能領域,LLM(Large Language Models,大型語言模型)和傳統機器學習是兩種不同的技術路徑,它們在處理數據、模型結構、應用場景等方面有著顯著的差異。 1. 模型結構
    的頭像 發表于 11-08 09:25 ?1643次閱讀

    阿里達摩發布玄鐵R908 CPU

    在杭州第四屆RISC-V中國峰會上,阿里達摩再次展現技術實力,隆重推出了玄鐵處理器家族的最新成員——R908 CPU。此次發布標志著玄鐵系列在高端計算領域的全面升級,吸引了業界的廣泛
    的頭像 發表于 08-23 16:27 ?1361次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是一些常見的LLM模型格式
    的頭像 發表于 07-09 09:59 ?1235次閱讀

    LLM模型的應用領域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM是一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?1129次閱讀

    什么是LLMLLM的工作原理和結構

    隨著人工智能技術的飛速發展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領域的研究熱點。LLM以其強大的文本生成、理解和推理能力,在文本
    的頭像 發表于 07-02 11:45 ?1.3w次閱讀

    Meta發布基于Code Llama的LLM編譯器

    近日,科技巨頭Meta在其X平臺上正式宣布推出了一款革命性的LLM編譯器,這一模型家族基于Meta Code Llama構建,并融合了先進的代碼優化和編譯器功能。LLM編譯器的推出,標
    的頭像 發表于 06-29 17:54 ?1759次閱讀

    【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互:1,LLM部署

    。環境變量的配置,未來在具體項目中我們會再次提到。 下面我們正式開始項目。項目從輸入到輸出分別涉及了語音識別,圖像識別,LLM,TTS這幾個與AI相關的模塊。先從最核心的LLM開始。 由于LLAMA3
    發表于 06-25 15:02