當(dāng)我們打開(kāi)一個(gè)資訊APP刷新聞時(shí),有沒(méi)有想過(guò),系統(tǒng)是如何迅速推送給我們想看的內(nèi)容?資訊APP背后有一個(gè)巨大的內(nèi)容池,系統(tǒng)是如何判斷要不要將某條資訊推送給我們的呢?這就是今天想跟大家探討的問(wèn)題——推薦系統(tǒng)中的“召回”策略。
推薦系統(tǒng)中的召回
召回策略主要滿足的是能夠從海量的數(shù)據(jù)中召回一部分相關(guān)的候選集,在實(shí)現(xiàn)方法上也有很多種,主要可以分為離線召回和在線召回。離線召回的方法主要有協(xié)同過(guò)濾、聚類算法。協(xié)同過(guò)濾可以分為基于用戶的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾。在線召回主要是基于搜索的方式,從該用戶的歷史記錄中利用不同的算法抽取相關(guān)信息,這里的相關(guān)信息可以是物品的基本信息,也可以是離線標(biāo)注的標(biāo)簽,然后將這些抽取到的關(guān)鍵信息從索引中快速的查詢出相關(guān)的結(jié)果集。
Elastic Search與TF-IDF
Elastic Search是基于Apache Lucene(TM)的一個(gè)開(kāi)源搜索引擎,是一個(gè)分布式且具有高擴(kuò)展性的全文檢索的搜索引擎,而且還提供了近乎實(shí)時(shí)的索引、分析、搜索功能。 Lucene是現(xiàn)今搜索領(lǐng)域被認(rèn)為速度最快、性能最穩(wěn)定、功能最全的搜索引擎庫(kù),而Elastic Search是以Lucene為核心進(jìn)行二次開(kāi)發(fā)的搜索引擎,主要完成索引和搜索的功能,它可以通過(guò)簡(jiǎn)單的接口隱藏Lucene的復(fù)雜性,從而讓整個(gè)搜索引擎變得更方便。
在基于內(nèi)容推薦的算法中,關(guān)鍵詞的提取是至關(guān)重要的一環(huán),關(guān)鍵詞提取直接影響了物品相似度計(jì)算的效果。假如沒(méi)有關(guān)鍵詞提取的話,物品全部信息作為特征維度會(huì)造成維度災(zāi)難,使得維度巨大,且構(gòu)造的矩陣會(huì)相當(dāng)稀疏,不利于計(jì)算。在關(guān)鍵詞提取的過(guò)程中,TF-IDF算法是很有效率的一種算法。關(guān)于TF-IDF算法我們不再這里展開(kāi)詳述。
Elastic Search與推薦系統(tǒng)的結(jié)合
Elastic Search的搭建過(guò)程可以參考官網(wǎng)。安裝配置完成Elastic Search之后,當(dāng)數(shù)據(jù)進(jìn)入Elastic Search并完成分詞和索引以后,現(xiàn)在只能夠根據(jù)指定輸入的詞語(yǔ)進(jìn)行搜索,與推薦系統(tǒng)并沒(méi)有任何聯(lián)系。因此,我們可以根據(jù)用戶的歷史記錄進(jìn)行TF-IDF構(gòu)造關(guān)鍵詞并且輸入Elastic Search,采用倒排索引的方式進(jìn)行存儲(chǔ),以便全文搜索。
簡(jiǎn)單來(lái)說(shuō),用戶的瀏覽、收藏等行為會(huì)被記錄在數(shù)據(jù)庫(kù)中,推薦系統(tǒng)會(huì)收集用戶的各種行為記錄,利用TF-IDF關(guān)鍵詞提取算法,實(shí)現(xiàn)一個(gè)概率模型,這個(gè)概率模型可以計(jì)算出近期用戶記錄中用戶偏好的關(guān)鍵詞,由于這些關(guān)鍵詞由用戶的記錄產(chǎn)生,因此就具有了個(gè)性化的特性,再將關(guān)鍵詞輸入到Elastic Search,就可以召回與用戶強(qiáng)相關(guān)的內(nèi)容集合。
利用這種方法搭建的推薦系統(tǒng),其優(yōu)勢(shì)也很明顯:一是能夠?qū)?nèi)容池中的所有物料做可計(jì)算的精細(xì)整合,實(shí)現(xiàn)對(duì)所有物料的召回,特別是對(duì)長(zhǎng)尾物料的召回,從而極大地提高物料利用率;二是自帶物品冷啟動(dòng),在沒(méi)有大量用戶數(shù)據(jù)的情況下也能實(shí)現(xiàn)個(gè)性化推薦,并且讓用戶對(duì)推薦結(jié)果滿意。
獲取更多詳細(xì)資料,或申請(qǐng)產(chǎn)品試用,歡迎訪問(wèn)第四范式智能推薦產(chǎn)品先薦官網(wǎng)!本賬號(hào)為第四范式智能推薦產(chǎn)品先薦的官方賬號(hào)。本賬號(hào)立足于計(jì)算機(jī)領(lǐng)域,特別是人工智能相關(guān)的前沿研究,旨在把更多與人工智能相關(guān)的知識(shí)分享給公眾,從專業(yè)的角度促進(jìn)公眾對(duì)人工智能的理解;同時(shí)也希望為人工智能相關(guān)人員提供一個(gè)討論、交流、學(xué)習(xí)的開(kāi)放平臺(tái),從而早日讓每個(gè)人都享受到人工智能創(chuàng)造的價(jià)值。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1804文章
48536瀏覽量
245522 -
推薦系統(tǒng)
+關(guān)注
關(guān)注
1文章
44瀏覽量
10190
發(fā)布評(píng)論請(qǐng)先 登錄
永磁同步電機(jī)矢量控制策略分析
NVIDIA大語(yǔ)言模型在推薦系統(tǒng)中的應(yīng)用實(shí)踐

嵌入式系統(tǒng)存儲(chǔ)的軟件優(yōu)化策略
軟件定義汽車(SDV)開(kāi)發(fā)有哪些挑戰(zhàn)?SDV開(kāi)發(fā)策略分享:福特汽車采用Jama Connect提升開(kāi)發(fā)效率與質(zhì)量

三星宣布大規(guī)模汽車召回計(jì)劃
小米汽車召回部分SU7電動(dòng)汽車
軟件定義汽車(SDV)開(kāi)發(fā)有哪些挑戰(zhàn)?SDV開(kāi)發(fā)策略分享:福特汽車采用Jama Connect提升開(kāi)發(fā)效率與質(zhì)量
光伏儲(chǔ)能發(fā)電運(yùn)維系統(tǒng)及能量管理策略研究

京東廣告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速實(shí)踐
EM儲(chǔ)能網(wǎng)關(guān)&amp;ZWS智慧儲(chǔ)能云應(yīng)用(5) — 削峰填谷策略接入介紹(二)

評(píng)論