隨著互聯(lián)網(wǎng)逐漸步入大數(shù)據(jù)時代,運營商和用戶的行為不可避免的發(fā)生了改變和重塑。最為突出的變化是,大數(shù)據(jù)使得用戶行為“可視化”。利用海量數(shù)據(jù)精準生成的“用戶畫像”,可以使營銷推廣更加的精準、高效,這也成為了視頻營銷不可或缺的技術手段之一。
相較于傳統(tǒng)的用戶畫像,視達科用戶畫像基于用戶行為軌跡的實時追蹤和模型計算生成,用戶畫像更加細致,更注重細節(jié)拆分,進一步提高特征描繪的精準度,能夠精準定位不同用戶的觀影需求,從而提升服務質(zhì)量。
(視達科用戶畫像系統(tǒng)架構)
在TF-IDF的基礎上,考慮了不同行為有不同的權重,且標簽會隨著時間而變化衰減。為了提高用戶標簽的準確度,視達科用戶畫像采用改進的IF-IDF算法計算標簽權重。
標簽值上的weights字段值,代表著2層意義:這個用戶的某標簽,其多個標簽值之間的重要程度;對于某標簽的一個標簽值,所有用戶之間的重要程度。
例如:用戶喜歡的影片類型這個標簽來說,會有多個標簽值:喜劇片、愛情片、恐怖片、科幻片...某用戶A,這標簽的幾個值:科幻片的權重是0.5,喜劇片的權重是0.3,則說明這用戶更喜歡“科幻片”。另一用戶B,這標簽的幾個值:科幻片的權重是0.7,恐怖片的權重是0.1,則說明用戶B比用戶A更喜歡科幻片。
TF-IDF權重函數(shù):
w(u, t, T) = TF(u, t, T) * IDF(t, T) * degree(u, t, T) * (1 / (1 + decay(T) ) ) + w(u, t, T-1) * (decay(T) / (1 + decay(T)))
一、 多重召回策略,對海量數(shù)據(jù)進行篩選過濾
如何在海量的視頻內(nèi)容中,篩選出一個模型組成內(nèi)容庫。視達科采用了多種召回策略,綜合考慮視頻的熱度、相似度、動作等,根據(jù)用戶興趣標簽對視頻內(nèi)容做截斷,高效從龐大的內(nèi)容庫中篩選符合用戶喜好的一小部分內(nèi)容。
(1)協(xié)同過濾召回
包括基于視頻、基于用戶的協(xié)同過濾推薦,前者依照視頻之間的相似性,將相似影片推薦給同一位用戶。例如:影片A與影片B相似,用戶喜歡影片A,則將影片B也推薦給用戶;后者依照用戶之間的相似性,將同一影片推薦給相似用戶,例如用戶A與用戶B相似,用戶A喜歡影片A,則將影片A也推薦給用戶B。
(2)熱榜召回
基于視頻播放頻率,形成視頻熱播榜單,將熱門影片推薦給其他用戶。例如:影片A在本時段內(nèi)播放次數(shù)增多,成為熱播榜影片,則將影片A推薦給其他用戶。
(3)其他召回
除了上述兩種常規(guī)召回策略,我們還使用了喜好召回、人工規(guī)則召回等多重召回策略,把一個海量、無法把握的內(nèi)容庫,變成一個相對小、可以把握的內(nèi)容庫,再進入推薦模型。這樣能夠有效平衡計算成本和效果。
三、精準排序模型,實現(xiàn)個性化推薦
在用戶意圖明確時,我們用搜索引擎來解決視頻內(nèi)容庫太大的問題,但當用戶的意圖不明確或者很難用清晰的語義表達,搜索引擎就無能為力。視達科通過精準的排序模型,將篩選后的小型內(nèi)容庫進行重新排序,在用戶完全沒有需求目標的情況下給出的全局推薦,為其推送個性化的視頻內(nèi)容。
(1)GBDT+LR
GBDT(Gradient Boost Decision Tree)是非線性模型,會建立多棵決策樹,但每棵樹擬合的是上一棵樹的殘差。
LR是廣義線性模型,速率快,對特征和特征組合要求高,在傳統(tǒng)效果預測方面使用廣泛。
使用GBDT結合LR進行推薦預測,facebook在2014年就進行了實踐,取得了很好的效果。
我們使用用戶畫像出來的興趣愛好、年齡、時段、時長等特征與用戶實際播放的影片的標簽屬性、演員、導演等特征作為輸入GBDT的輸入,GBDT的葉子結點作為LR的輸入進行訓練。推薦時使用該模型對被推薦用戶的召回集影片做預測排序,將靠前的推薦出去。
(2)深寬度模型
寬深度(Wide and deep)模型是谷歌2016年發(fā)布的,并在Google Play的應用推薦中實際使用,是經(jīng)過檢驗的模型。
寬度模型用的是邏輯回歸,形式如下:
,其中X是特征向量,W是特征權重,b是偏置。
深度模型通過DNN來提供泛化能力,每個隱層激活方式表示如下:
其中l(wèi)表示第l個隱藏層,f是激活函數(shù) 。
深寬度模型最后的輸出過程公式表示就是:
是sigmoid函數(shù) ,
是組合特征,
是深度模型輸出的權重,
寬深度模型結合傳統(tǒng)線性模型和深度模型,能兼顧記憶和歸納。寬度模型能根據(jù)歷史播放、瀏覽等行為相關性,推薦關聯(lián)產(chǎn)品;深度模型用于發(fā)現(xiàn)歷史行為中出現(xiàn)很少或未出現(xiàn)的特征組合。
四、智能調(diào)優(yōu),提高推薦準確度
采用智能調(diào)優(yōu)技術,將推薦效果進行評估,系統(tǒng)根據(jù)評估結果自動對各種推薦算法進行比例調(diào)優(yōu),不斷自動迭代,實現(xiàn)推薦準確度優(yōu)化提高的技術。
通過調(diào)整各類推薦算法間的分配比例,每次推薦任務會將任務分配給不同的推薦引擎,最終通過結果評估觀測哪種推薦引擎推薦效果更好,效果更好的下次自動分配更高比例任務。
基于改進的TF-IDF算法計算標簽權重,采取多重召回策略并進行精準排序,利用智能調(diào)優(yōu)技術,對用戶畫像進行精準刻畫,我們得以實時、精確、全面的了解用戶訴求,為用戶的個性化服務提供及時有效的數(shù)據(jù)支撐,全方位提升用戶體驗,進一步提高視頻運營服務質(zhì)量。
企業(yè)簡介
視達科,初靈信息(股票代碼:300250)全資子公司,以“創(chuàng)造一流視頻體驗”為愿景,通過數(shù)據(jù)推動決策與運營,助力合作伙伴的視頻業(yè)務不斷增長。
-
互聯(lián)網(wǎng)
+關注
關注
54文章
11229瀏覽量
105537 -
大數(shù)據(jù)
+關注
關注
64文章
8949瀏覽量
139427 -
用戶畫像
+關注
關注
0文章
7瀏覽量
2471
原文標題:【深度】基于視達科用戶畫像,精準定位用戶需求
文章出處:【微信號:iptvott,微信公眾號:流媒體網(wǎng)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
舵機精準定位背后的秘密

UWB模塊SKU609:精準定位與多功能融合的卓越之選
廣汽集團召開高質(zhì)量發(fā)展大會
頂堅國產(chǎn)芯單北斗執(zhí)法儀:精準定位鐵路隱患,保障行車安全

制造業(yè)升級新引擎:單北斗有源終端賦能精準定位與追蹤

信雅達入選2024年度中國軟件高質(zhì)量發(fā)展前百家企業(yè)
精準定位,深度清潔:揭秘工廠清潔機器人的核心技術
如何實現(xiàn)室內(nèi)精準定位?分享室內(nèi)精準定位技術及方法

單北斗精準定位,頂堅北斗有源終端賦能行業(yè)新應用!

揭秘高質(zhì)量點焊機的五大標準:打造焊接性能的基石

UTB定位技術能不能精準定位
服務提供商數(shù)據(jù)在精確定位中的應用
室內(nèi)精準定位都有哪些亮眼的優(yōu)勢?
室內(nèi)精準定位的應用范圍?室內(nèi)精準定位的方式有哪些

評論