近日,由追一科技主辦的首屆中文NL2SQL挑戰賽初賽結束。來自海內外的1457支隊伍,經過1個多月的初賽角逐,決出30強隊伍。來自國防科技大學、北京交通大學、國雙科技、清華大學、哈爾濱工業大學等高校、企業的30支優勝團隊,晉級下一階段復賽挑戰。
此次比賽,也是中文NLP領域首次舉辦NL2SQL主題比賽,并發布相關數據集,引起了業內和海內外廣泛關注。自6月24日比賽啟動以來,共有1457支隊伍、1630名選手報名參賽,參與院校數達170所,其中227支隊伍、318名選手提交成績。廣泛的參與,使得NL2SQL成為國內NLP技術比賽領域參賽規模最大的賽道之一。
挑戰中文數據集
值得注意的是,本次比賽提出的NL2SQL中文數據集比英文數據集WikiSQL引入了口語化表達、結合表格內容、命名實體鏈接、更復雜的SQL語法等挑戰,難度更高的同時也更貼近于真實應用場景,但在選手們的積極、多方探索下,短期內就已經可以達到與英文數據集上相當水平的分數。
近兩個月的初賽過程中,選手們的方案一直持續刷新著本次比賽的新記錄。
比賽初期,排行榜頭部選手們的分數聚集在0.58左右,已經超過了比賽方所提供的baseline。隨后,選手通過各種討論、交流,加深對數據集理解,不斷探索更優的方案,從而提高成績,頭部選手的分數很快突破了0.80大關。在8月12日初賽結束時,比賽榜上的頭部分數已經達到0.89,已經接近WikiSQL的成績。
比賽成績的快速提升,充分體現出選手們的投入與方案的優秀,同時也側面反映出,目前積累的許多技術方案都可以在NL2SQL這一個新任務上發揮作用,大家也意識到,只要有充分的數據來支撐, 目前人工智能領域的方法論可以有效地為數據庫乃至結構化數據提供自然語言的交互方式。
千支隊伍挑戰NL2SQL
任務上的創新、應用上的潛力,NL2SQL比賽一經推出,就受到了學界和工業界的廣泛關注。
據了解,本次1457支參賽隊伍中,院校和企業參與者各占“半壁江山”。其中,學生及科研人員占比48%,企業技術員工占比52%。學生參賽隊伍來自眾多知名院校,如北京大學、清華大學、復旦大學、上海交通大學、南京大學、浙江大學、中國科學技術大學、哈爾濱工業大學、西安交通大學等。
雖然本次比賽的數據內容是中文形式,但仍然吸引了美國、英國、新加坡、日本、澳大利亞、加拿大等海外頂級院校參與,包括卡內基梅隆、墨爾本大學、新加坡國立大學、南安普頓大學、新南威爾士大學、布里斯托大學、昆士蘭大學等。
作為新興NLP研究任務,NL2SQL在專業難度上,也對選手提出較高要求。據了解,本次參賽選手中,碩士及以上學歷占比57%,其中,博士學歷占比6%;而專業分布上,計算機科學專業背景的選手則屬于參賽主力。
應用潛力吸引名企參賽
值得注意的是,NL2SQL挑戰賽,還吸引了眾多的企業技術人員參與。
來自中國移動、平安集團、搜狗、達闥科技、中興通訊、網宿科技、國雙科技、捷通華聲等眾多企業的技術人員,也成為參賽隊伍的重要力量。
“此次挑戰賽參與規模遠超預期,顯示出NL2SQL在學術和工業應用上的潛力,數據庫的交互創新,正在受到越來越多關注。”追一科技聯合創始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業界同仁攜手,共同推動中文NLP研究與應用突破。
據了解,中文NL2SQL挑戰賽復賽將于8月19至9月9日進行。復賽階段采用線上運行的方式來進行評測,測試集不可下載,并且內容對選手不可見。同時,測試集在保證數據分布與初賽測試集一致同時,加入更多在初賽中沒有出現過的表格數據,屆時,將對選手方案提出更高挑戰。而復賽勝出者,將會參加10月份的最終決賽。
-
nlp
+關注
關注
1文章
490瀏覽量
22488
發布評論請先 登錄
解讀2025五岳杯量子計算挑戰賽銀獎成果之一

2024集創賽紫光同創杯分賽區決賽火熱進行 | 華中、西南、東北分賽區決賽圓滿舉辦!

2024集創賽全國總決賽即將啟航 | 西北、華東、華南、華北分賽區決賽圓滿舉辦!

【喜報】2024年集創賽全國總決賽圓滿落幕,紫光同創杯斬獲佳績!

2025集創賽紫光同創杯賽直播預告|提供400套板卡支持,參賽隊伍速來申請!

第二屆OpenHarmony創新應用挑戰賽圓滿落幕
平頭哥半導體亮相AICAS 2025挑戰賽技術研討會
芯華章持續助力EDA精英挑戰賽
EDA精英挑戰賽賽果公布!思爾芯“戰隊”薪火相承斬獲“麒麟杯”

【校企】億佰特攜手?GM G?K-HAN火箭隊,共鑄季軍榮耀時刻!

第十九屆全國大學生智能汽車競賽圓滿落幕
69項國獎!廣和通隊伍在第七屆全國大學生嵌入式芯片與系統設計競賽大放異彩

NVIDIA為AI城市挑戰賽構建合成數據集
2024年度“瑞薩杯”信息科技前沿專題賽頒獎典禮圓滿落幕
TPU編程競賽系列|第八屆集創賽”算能杯”精彩收官!

評論