自然語言理解研究的快速發展,特別是在學習語義文本表示方面的發展可以促進一些新穎的產品,如自動寫作和“TalktoBooks”搜索等。本文介紹了谷歌在語義文本表示方面的最新進展,以及開源的兩個新模型。
基于神經網絡的自然語言理解研究的快速發展,它還可以幫助提高數據量有限的各種自然語言任務的性能,比如基于僅有的幾百個標簽樣例來構建強大的文本。
下面,我們將討論兩篇關于Google語義表示最新進展的論文,以及在TensorFlow Hub上可以下載使用的兩個新模型,我們希望開發者能夠使用這些模型來構建新的、令人興奮的應用程序。
語義文本相似度
在“從對話中學習語義文本相似性(Learning Semantic Textual Similarity from Conversations)”這篇論文中,我們引入了一種新的方法來學習語義文本相似性的句子表示。基于的想法是:如果句子有相似的反應分布,那么它們在語義上是相似的。例如,“你多大了?”和“你的年齡是多少?”這兩個問題都是關于年齡的問題,可以用類似的回答作為響應,比如“我20歲”。相比之下,“你好嗎?”和“你多大了?”"包含幾乎相同的單詞,它們有非常不同的含義并會對應不同的響應。
在這項工作中,我們的目標是通過一種響應式的分類任務來學習語義相似性,具體方法如下:給定一個對話輸入,我們希望從一組隨機選擇的響應中對正確的響應進行分類。但是,最終的目標是學習一種能夠返回表示各種自然語言關系編碼的模型,包括相似性和關聯性。通過添加另一個預測任務(在本例中是SNLI entailment數據集),并通過共享編碼層強制執行,我們在相似度量方面獲得了更好的性能,相似度的衡量指標有很多,例如用于句子相似性基準性度量的STSBenchmark和用于衡量一個問題/問題相似任務的CQA task B指標。這是因為邏輯推理與簡單的等價性有很大的不同,并且為學習復雜的語義表示提供了更多的借鑒意義。
通用句子編碼器
在“通用句子編碼器(Universal Sentence Encoder)”中,我們引入了一個模型,它對上面描述的多任務訓練進行了擴展,并增加了更多的任務,并使用一個類似于skip-thought的模型來訓練它們,它可以在給定的文本范圍內來預測句子。
然而,最初的skip-thought模型,是一種只使用編碼器的體系結構,而非在最初的skip-thought模型中使用編碼-解碼體系結構來驅動預測任務的模型。通過這種方式可以大大減少訓練時間,同時保留各種傳遞任務的性能,包括情感和語義相似的關系。其目的是提供一個單一的編碼器,它可以支持盡可能廣泛的應用程序,包括解釋檢測、關聯、集群和自定義文本分類。
正如我們的論文中所描述的,通用句子編碼器模型的一個版本使用了一個深度平均網絡(DAN)編碼器,而第二個版本使用了更復雜的自我參與的網絡架構:變壓器(Transformer)。
基于更復雜的體系結構的模型比簡單的DAN模型在各種情緒和相似的處理任務上表現得更好,而對于短句來說它只是反應的稍微慢一些。然而,隨著句子長度的增加,使用Transformer的模型的計算時間會顯著增加,而DAN模型的計算時間則保持不變。
新模型
除了上面描述的通用句子編碼器模型之外,我們還在TensorFlow Hub上共享兩個新模型:通用句子編碼器-large版(Universal Sentence Encoder - Large)和通用句子編碼器-Lite版(Universal Sentence Encoder - Lite)。這些都是預先訓練的張量模型,它的返回值是可變長度文本輸入的語義編碼。這些編碼可用于語義相似度測量、相似性關系檢測、分類或自然語言文本的聚類。
在我們的第二篇論文中描述了這個Large模型。它針對需要高精度語義表示的場景,以及以速度和大小為代價的最佳模型性能。
Lite模型是通過一個句子的詞匯表而不是單詞來訓練的,這樣就可以減少詞匯的大小,這是模型大小的主要貢獻者。它針對的是內存和CPU等資源有限的場景,比如基于設備或基于瀏覽器實現。
我們很高興能與社區分享這項研究,以及這些模型。我們認為,我們在這里展示的只是一個開始,還有一些重要的研究問題需要解決,比如將技術擴展到更多的語言之上(上面討論的模型目前支持英語)。我們還希望進一步開發這種技術,使它能夠理解段落甚至文檔級別的文本。在完成這些任務的過程中,有可能制造出真正“通用”的編碼器。
-
編碼器
+關注
關注
45文章
3793瀏覽量
137973 -
開源
+關注
關注
3文章
3676瀏覽量
43803
原文標題:谷歌語義文本最新進展+兩個開源新模型
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
英特爾持續推進核心制程和先進封裝技術創新,分享最新進展

谷歌Gemini API最新進展
京東方華燦光電氮化鎵器件的最新進展
垂直氮化鎵器件的最新進展和可靠性挑戰

Qorvo在手機RF和Wi-Fi 7技術上的最新進展及市場策略
FF將發布FX品牌最新進展

揭秘超以太網聯盟(UEC)1.0 規范最新進展(2024Q4)

評論