女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習算法那家強 因子分解機(FM算法)工業落地能力最強

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-12-31 00:01 ? 次閱讀

文 | 石塔西

源 | 夕小瑤的賣萌屋

盡管BERT為代表的預訓練模型大肆流行,但是身處工業界才會知道它落地有多難,尤其是QPS動輒幾百的在線推薦、搜索系統,哪怕在大廠也很難在線上系統見到它們。

今天就想反其道而行之,談談工業界搜索、推薦、廣告這類核心場景中落地能力最強的算法(之一):因子分解機(FM)。我不敢說它是最簡單的(FM的確很簡單),但是作為一個推薦算法調參工程師,掌握FM一定是性價比最高的。我推崇FM算法的原因,有以下三點:

功能齊全

眾所周知,推薦算法有三個應用領域:召回、粗排、精排。推薦算法千千萬,但是有的算法只能用于召回,有的算法只能用于排序。像FM這樣實現三個領域全覆蓋的多面手,目前為止,孤陋寡聞的我尚不知道有第二個。但是需要強調的是,我們不能只訓練一個FM排序模型 ,然后直接拿這個排序模型用于召回。盡管都是基于FM算法,但是FM召回與排序,有以下不同:

使用的特征不同

FM召回,由于未來要依賴Faiss進行線上檢索,所以不能使用user與doc的交叉特征。只有如此,我們才能獨立計算user embedding與doc embedding

FM排序,則沒有這方面的限制,可以使用user與doc的交叉特征。是的,你沒看錯。因為FM所實現自動二階交叉,僅能代表“共現”。但是user與doc之間還有其他形式的交叉,比如user tag與doc tag之間的重合度,喂入這樣的交叉,對于排序性能提升,仍然有很大幫助。

使用的樣本不同

訓練FM做排序時,必須使用“曝光未點擊”這樣的“真負”樣本。

訓練FM做召回時,起碼不能只使用“曝光未點擊”做負樣本。大部分的負樣本必須通過隨機采樣得到。個中原因見我的文章《負樣本為王:評Facebook的向量化召回算法》。

使用的Loss不同

FM排序時,由于負樣本是真實的,可以采用CTR預估那樣的point-wise loss

FM召回時,由于負樣本是隨機采樣得到的,存在一定的噪聲,最好采用BPR, hinge這樣的pair-wise loss。

性能優異

推薦系統的兩大永恒主題,“記憶”與“擴展”,FM也能實現全覆蓋。

FM存在一階項,實際就是LR,能夠“記憶”高頻、常見模式

FM存在feature embedding。如我在《無中生有:論推薦算法中的Embedding思想》據說,Embedding是提升推薦算法“擴展性”的法寶。FM通過feature embedding,能夠自動挖掘低頻、長尾模式。在這一點上,基于embedding的二階交叉,并不比DNN的高階交叉,遜色多少。

便于上線

現在深度學習是推薦領域的寵兒,LR/FM/GBDT這樣的傳統機器學習算法,不招人待見。

DNN雖然性能優異,但是它有一個致命缺點,就是上線困難。訓練的時候,各位調參俠,把各種酷炫的結構,什么attention, transformer, capsule,能加上的都給它加上,看著離線指標一路上漲,心里和臉上都樂開了花,卻全然無視旁邊的后端工程師恨得咬緊了牙根。模型越復雜,離線和線上指標未必就更好,但是線上的時間開銷肯定會增加,輕則影響算法與后端的同事關系(打工人何苦為難打工人),重則你那離線指標完美的模型壓根沒有上線的機會。雖說,目前已經有TF Serving這樣的線上serving框架,但是它也不是開箱即用的,也需要一系列的性能調優,才能滿足線上的實時性要求。

所以,如果你身處一個小團隊,后端工程人員的技術能力不強,DNN的線上實時預測,就會成為一個難題,這個時候,FM這樣的傳統機器學習算法,就凸顯出其優勢。

FM排序,雖然理論上需要所有特征進行二階交叉,但是通過公式化簡,可以在 O(n)的時間復雜度下完成。n是樣本中非零的特征數目,由于推薦系統中的特征非常稀疏,所以預測速度是非常快的。

召回,由于候選集巨大,對于實時性的要求更高。很多基于DNN的召回算法,由于無法滿足線上實時生成user embedding的需求,只能退而離線生成user embedding ,對于用戶實時興趣的捕捉大打折扣。FM召回,這時就顯現其巨大的優勢。事先把doc embedding計算好,存入Faiss建立索引,user embedding只需要把一系列的feature embedding相加就可以得到,再去faiss中進行top-k近鄰搜索。FM召回,可以實現基于用戶最新的實時興趣,從千萬量級候選doc中完成實時召回。

總結與參考

由于以上優點,我心目中,將FM視為推薦、搜索領域的"瑞士軍刀"。風頭上雖然不及DNN那么搶眼,但是論在推薦系統中發揮的作用,絲毫不比DNN遜色,有時還能更勝一籌。FM有如此眾多的優點,優秀的調參俠+打工人,還等什么,還不趕快學起來。想迅速掌握FM,我推薦如下參考文獻:

掌握FM原理,推薦讀美團的博客《深入FFM原理與實踐》。FFM的部分可以忽略,在我看來,FFM更像是為了Kaggle專門訓練的比賽型選手,損失了FM的很多優點。這就好比,奧運會上的射擊冠軍,未必能夠勝任當狙擊手一樣。

FM用于召回,推薦讀《推薦系統召回四模型之:全能的FM模型》。注意,如我所述,FM雖然萬能,但是FM排序與FM召回,在特征、樣本、Loss都存在不同,不可能訓練一個FM排序就能直接拿來做召回。這一點,《全能FM》一文沒有提到,需要讀者特別注意。

如果想親手實踐,可以嘗試alphaFM。該項目只不過是作者八小時之外的課外作品,卻被很多公司拿來投入線上實際生產環境,足見該項目性能之優異和作者功力之深厚,令人佩服。強烈建議不滿足只當“調參俠”的同學,通讀一遍alphaFM的源代碼,一定收獲滿滿。

[1] https://zhuanlan.zhihu.com/p/165064102

[2] https://zhuanlan.zhihu.com/p/320196402

[3] https://link.zhihu.com/?target=https%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

[4] https://zhuanlan.zhihu.com/p/58160982

[5] https://link.zhihu.com/?target=https%3A//github.com/CastellanZhang/alphaFM

原文標題:談談工業界落地能力最強的機器學習算法

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4698

    瀏覽量

    94733
  • FM
    FM
    +關注

    關注

    1

    文章

    191

    瀏覽量

    59878
  • 機器學習
    +關注

    關注

    66

    文章

    8491

    瀏覽量

    134083
  • dnn
    dnn
    +關注

    關注

    0

    文章

    61

    瀏覽量

    9220

原文標題:談談工業界落地能力最強的機器學習算法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    【「# ROS 2智能機器人開發實踐」閱讀體驗】視覺實現的基礎算法的應用

    學習建議 對于初學者,建議先通過仿真(如Gazebo)驗證算法,再遷移到真實機器人,以降低硬件調試成本。 多參與開源社區(如ROS2的GitHub項目),學習前沿技術并貢獻代碼
    發表于 05-03 19:41

    具身智能工業機器人路徑規劃算法成為破局關鍵

    工業4.0與智能制造深度融合的今天,傳統路徑規劃算法已難以滿足動態生產環境的需求。面對復雜場景下的高精度避障、實時決策與多任務協同挑戰,具身智能工業機器人路徑規劃
    的頭像 發表于 03-28 15:01 ?276次閱讀

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發表于 03-13 07:34

    中偉視界:AI防爆型攝像有哪些常用算法算法解析與并行運行能力介紹

    AI防爆型攝像通過多種智能算法,如目標檢測、人體識別、行為識別等,具備了對監控場景的深度解析與高效管理能力。它能實時監測潛在危險并預警,在無網無電環境中可獨立運行,充分展示了其強大的并行算法
    的頭像 發表于 02-27 10:41 ?459次閱讀
    中偉視界:AI防爆型攝像<b class='flag-5'>機</b>有哪些常用<b class='flag-5'>算法</b>之<b class='flag-5'>算法</b>解析與并行運行<b class='flag-5'>能力</b>介紹

    機器學習模型市場前景如何

    當今,隨著算法的不斷優化、數據量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發廣闊。下面,AI部落小編將探討機器
    的頭像 發表于 02-13 09:39 ?287次閱讀

    華為云 Flexus X 實例部署安裝 Jupyter Notebook,學習 AI,機器學習算法

    前言 由于本人最近在學習一些機器算法,AI 算法的知識,需要搭建一個學習環境,所以就在最近購買的華為云 Flexus X 實例上安裝了
    的頭像 發表于 01-02 13:43 ?434次閱讀
    華為云 Flexus X 實例部署安裝 Jupyter Notebook,<b class='flag-5'>學習</b> AI,<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>算法</b>

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發表于 11-15 09:19 ?1082次閱讀

    AIGC算法解析及其發展趨勢

    、AIGC算法解析 核心基礎 人工智能算法 :AIGC技術的基礎和靈魂,如深度學習機器學習算法
    的頭像 發表于 10-25 15:35 ?1270次閱讀

    深度學習算法在嵌入式平臺上的部署

    隨著人工智能技術的飛速發展,深度學習算法在各個領域的應用日益廣泛。然而,將深度學習算法部署到資源受限的嵌入式平臺上,仍然是一個具有挑戰性的任務。本文將從嵌入式平臺的特點、深度
    的頭像 發表于 07-15 10:03 ?2759次閱讀

    深度學習工業機器視覺檢測中的應用

    識別等任務。傳統的機器視覺檢測方法通常依賴于手工設計的特征和固定的算法,難以應對復雜多變的工業環境。而深度學習的引入,為工業
    的頭像 發表于 07-08 10:40 ?1754次閱讀

    深度學習的基本原理與核心算法

    隨著大數據時代的到來,傳統機器學習方法在處理復雜模式上的局限性日益凸顯。深度學習(Deep Learning)作為一種新興的人工智能技術,以其強大的非線性表達能力和自
    的頭像 發表于 07-04 11:44 ?3509次閱讀

    神經網絡反向傳播算法的優缺點有哪些

    神經網絡反向傳播算法(Backpropagation Algorithm)是一種廣泛應用于深度學習機器學習領域的優化算法,用于訓練多層前饋
    的頭像 發表于 07-03 11:24 ?1841次閱讀

    神經網絡算法的優缺點有哪些

    的優點 自學習能力:神經網絡算法具有強大的自學習能力,能夠從大量數據中自動提取特征,無需人工干預。這使得神經網絡
    的頭像 發表于 07-03 09:47 ?2677次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發表于 07-02 11:25 ?2160次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習
    的頭像 發表于 06-27 08:27 ?1948次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典<b class='flag-5'>算法</b>與應用