作者:京東零售 王彗木
東方若曉,莫道君行早
EMNLP 2024: Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval
paper鏈接: https://arxiv.org/abs/2407.21488v1
0 摘要
生成式搜索/推薦在搜索和推薦系統中已經成為一種創新的范式,它通過使用基于數值的標識符來提升效率和泛化能力。特別是在電子商務領域,像TIGER這樣的方法使用基于殘差量化的語義標識符(RQ-SID),表現出了很大的潛力。然而,RQ-SID面臨一個被稱為“沙漏”現象的問題,即中間碼本令牌過于集中,限制了生成式搜索/推薦方法的全面發揮。本文通過研究發現,路徑稀疏和長尾分布是造成這一問題的主要原因。我們通過一系列詳細的實驗和消融研究,分析了這些因素對碼本利用率和數據分布的影響。結果表明,“沙漏”現象對RQ-SID的性能有顯著影響。我們提出了一些有效的解決方案,成功改善了生成式任務在實際電子商務應用中的效果。
1 背景
在生成式搜索/推薦中,基于數值的標識符表示方法因其簡單、高效和強大的泛化能力而在行業中被廣泛采用,特別是在長行為序列推薦中。這些方法顯著縮短了序列長度并加快了推理過程。值得注意的方法包括DSI、NCI、TIGER、GDR和GenRet。其中,TIGER方法通過殘差量化(RQ)(Lee等,2022;Zeghidour等,2021)生成語義標識符(SID),有效捕捉了語義信息和層次結構。這種方法在以商品為主的電子商務場景中特別有優勢,能夠準確反映電子商務數據中固有的復雜層次關系和語義特征,從而顯著提升推薦性能。
需要強調的是,基于RQ的方法的性能上限在很大程度上依賴于SID的生成,這也是本文分析和討論的核心重點。
2 任務定義
?
基于現有常見的任務場景,定義如下任務【注意:任務形式不限于下列任務,只要是含有SID的任務均可】:該用戶信息:年齡:age_2;性別:男性;會員狀態:非會員。該用戶的歷史交互行為有:,……。該用戶本次搜索的關鍵詞為“XX鼠標”。請根據該用戶信息、歷史交互行為和本次搜索關鍵詞,預測該用戶接下來最可能購買的商品:
3 RQ-VAE SID生成
?
SID生成,谷歌的TIGER方法用的比較廣泛。它通過殘差量化RQ生成語義標識符(SID),能夠有效捕捉語義信息和層次結構。這種方法在以商品為主的電商場景中尤其有優勢,因為它能夠準確反映電商數據中的復雜層次關系和語義特征,從而顯著提升推薦性能。
4 沙漏現象
?
在通過殘差量化(RQ)生成的SID中,我們觀察到了一種顯著的“沙漏”現象。具體而言,中間層的碼本過于集中,導致了一對多和多對一的映射結構。這種集中現象引發了路徑的稀疏性和長尾分布問題。路徑稀疏性是指匹配路徑僅占總路徑空間的一小部分,而長尾分布則意味著大多數SID集中在少數的頭部標記上,中間層標記的分布呈現長尾特征。在具有長尾特征的數據集中,這種“沙漏”效應尤為明顯,顯著限制了生成式搜索推薦方法的表示能力。問題的根源在于逐步量化高維向量殘差的內在特性。基于此,我們對該現象進行了深入的理論與實驗分析,并提出了相應的解決方案。
4.1 沙漏現象可視化
為了生成語義ID,我們首先利用公司內部數十億條搜索日志中的查詢-商品數據,訓練了雙塔模型(如DSSM和BERT等)。接著,通過商品塔獲取了數億商品的嵌入向量,最終采用殘差量化(RQ)方法為所有商品生成了語義ID。
?
生成語義ID后,對所有商品進行了聚合,并計算了三層分布圖。如上圖所示,可以看到第二層集中有大量路由節點,整體分布呈現“沙漏”現象。為了驗證這一現象的普遍性,我們在不同參數組合下進行了多次可視化實驗,沙漏效應非常顯著,三層代碼表中token的路徑分布相對稀疏。
?
此外,基于上述實驗,我們使用三個指標對第二層的標記分布進行了統計分析:熵、基尼系數和標準差,如圖所示。結果表明,第二層的標記分布表現出低熵、高基尼系數和大標準差,表明該分布具有顯著的不均勻性。
總體而言,這種沙漏現象在代碼表中通過路徑稀疏性和token的長尾分布得到了統計數據支持。其中,
路徑稀疏性:語義ID結構導致代碼表利用率低。
長尾分布:在中間層,大多數路徑集中到單個token上
4.2 現象分析
為了探討“沙漏”現象的成因,將基于殘差量化(RQ)的運行機制進行深入分析和討論。為了便于理解,考慮兩種原始嵌入的分布:非均勻分布和均勻分布。接下來,使用RQ為數據X生成語義ID。
?
可以看到,第一層,候選點被分成M個聚類桶,token的入度相等。輸入分布均勻。第二層輸入為第一層的殘差,分布非均勻。小殘差點靠近聚類中心,異常值較大。聚類更關注異常值,形成長尾現象。第三層殘差值變得一致且均勻。類似第一層的均勻分布。第二層大路由節點分散成多個小節點。整體趨勢隨層數增加,殘差減小,聚類效應減弱。形成沙漏狀結構:數據壓縮再擴展,最終均勻分布。語義ID構建后,RQ量化方法的影響,加上中間層頭部token的主導地位,自然導致了路徑的稀疏性。類似地,對于非均勻分布(如長尾分布),殘差分布變得更加不均勻,導致現象更加嚴重。
4.3 實際影響
為了評估這種現象的影響,我們進行了多項實驗。首先,在評估過程中,我們根據第二層標記的分布將測試集分為兩組:頭部標記測試集和尾部標記測試集。如表所示,頭部標記測試集的性能顯著提升,而尾部標記測試集的性能則明顯較差。這種性能差異可以歸因于先前分析的路徑稀疏性和標記的長尾分布,導致了結果的偏差。這一現象在不同規模的模型(如LLaMA2、Baichuan2和Qwen1.5)以及不同參數的殘差量化(RQ)中均有觀察到,突顯出長尾標記分布和路徑稀疏性對模型性能的廣泛影響。
此外,為了進一步探討“沙漏”現象對模型性能的影響,我們進行了兩個關鍵實驗:1)交換第一層和第二層的標記,2)將交換序列的第一個標記作為輸入。
在僅交換第一層和第二層標記的情況下,第一層出現顯著的長尾分布,導致模型難以擬合,從而效果較差。由于逐標記錯誤的累計,交換后的效果甚至比不交換更差。然而,當交換后給定第一個標記時,輸出任務變為預測第二或第三層的SID,這使得任務變得更簡單,并且長尾分布不再影響結果(因為給定了真實的SID1),因此效果顯著提升。此外,在不交換第一層和第二層的條件下,給定第一個標記(第二層SID依舊是長尾分布),其結果高于基線,但低于交換后給出第一個標記的情況(如表所示)。
這一發現表明,“沙漏”現象對模型性能有著實質性的負面影響。通過上述實驗,不僅確認了“沙漏”效應的存在,還闡明了其對模型性能的具體影響,從而為未來的優化提供了堅實的基礎。
5 解決方法
?
解決沙漏現象的方法有多種,在此簡單的從分布角度提出兩種簡單易行的方法:一種啟發式的方法是直接移除第二層,從而消除長尾效應的影響。然而,這可能導致空間容量不足。需要注意的是,這里首先要生成一個L層的語義ID(SID),然后再移除第二層,這與直接生成一個兩層的SID不同,因為后者可能仍然存在大的路由節點。另一種簡單的方法是自適應地移除第二層的頂部tokens,使語義ID成為一個可變長度的結構。這里使用了top@K策略,并設定一個閾值p。這種方法確保了分布保持不變,同時有選擇地減少了“沙漏”效應的影響。
為了進一步驗證該方法的有效性,在LLaMA模型上進行了實驗。結果表明,通過應用自適應token移除策略,模型性能得到了提升,同時計算成本與基礎模型相近,并且在一些客觀優化(如Focal Loss和Mile Loss)方面也表現出色。
具體來說,實驗結果顯示,使用top@400 token移除策略的模型在大多數評估指標上都優于基線模型。這表明該方法有效地減少了長尾效應的影響。隨著移除的tokens數量增加,模型性能的提升會遇到瓶頸。特別是當所有tokens都被移除時,這種限制尤為明顯,這可能是由于缺少長尾tokens,導致召回率下降。同時,直接移除第二層會導致一個SID對應多個項目。這種細粒度的分析為所提出方法的有效性提供了有力證據。該方法在選擇性移除不太重要的tokens的同時,保留了最有信息量的tokens,即使在移除大量數據的情況下,也能提升模型性能。
6 結論
本研究系統地探討了RQ-SID在生成式搜索/推薦的局限性,特別是發現了中間層tokens過度集中導致數據稀疏和長尾分布的“沙漏”現象。通過廣泛的實驗和消融研究,證明了這一現象,并分析了其根本原因在于殘差特性。為了解決這個問題,提出了兩種方法:移除第二層的啟發式方法和自適應調整token分布的可變長度token策略。實驗結果顯示,兩種方法都有效緩解了瓶頸效應,其中自適應token分布調整策略效果最佳。這是首次系統性地探討RQ-SID在生成式搜索/推薦中缺陷的研究,為未來的模型優化提供了堅實的基礎,并顯著提升了模型性能。
7 未來規劃
1、 優化SID的生產與表征方式,通過引入時效、統計類特征來輔助額外表征,讓其能滿足對特征極為看重的排序需求;
2、 統一稀疏表征(SID)與密集表征,讓LLM可以顯示的建模密集特征變化趨勢,而不是稀疏表征的映射
3、 保證鏈路無損失實現一段式搜索。
審核編輯 黃宇
-
SID
+關注
關注
0文章
16瀏覽量
3132
發布評論請先 登錄
時間沙漏分享
"STM32F0 Error: Flash Download failed - ""Cortex-M0""解決"

鑒源論壇 · 觀模丨基于搜索的測試生成

芯片工藝的&quot;7nm&quot; 、&quot;5nm&quot;到底指什么?

生成式AI恐使搜索引擎衰退,預計2026年搜索量將下滑25%
谷歌搜索引擎添加&quot;Web&quot;過濾器,僅展示文本鏈接
IBM 發布光學技術關鍵突破,生成式AI迎來&quot;光速時代&quot;
EAM 與 MES 深度融合:智能工廠的 &amp;quot;雙引擎&amp;quot; 如何打破生產瓶頸?

煉油廠開閉所局放監測:為能源樞紐裝上&amp;quot;智能安全閥&amp;quot;

電纜局部放電在線監測:守護電網安全的&amp;quot;黑科技&amp;quot;

評論