女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

京東零售廣告創意:引入場域目標的創意圖片生成

京東云 ? 來源:京東零售 馮偉 ? 作者:京東零售 馮偉 ? 2025-03-18 14:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:京東零售 馮偉

wKgZO2fZC_yAc6vuAAKQTjIphLI530.png

WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models

論文鏈接:https://arxiv.org/pdf/2502.06823?

代碼鏈接:https://github.com/Chenguoz/CAIG?

摘要:在電商平臺中,廣告圖片對于吸引用戶注意力和提高廣告效果至關重要。大多數現有的方法在為商品生成背景時主要關注美學質量,這可能無法實現令人滿意的在線表現。為了解決這一局限性,我們探索使用多模態大型語言模型(MLLMs)來生成廣告圖片,并將優化點擊率(CTR)作為主要目標。首先,我們構建了針對性的預訓練任務,并利用大規模的電商多模態數據集,為MLLMs提供廣告圖片生成任務的初始能力。為了進一步提高生成圖片的CTR,我們提出了一種新穎的獎勵模型,通過強化學習(RL)對預訓練的MLLMs進行微調,該模型能夠聯合利用多模態特征并準確反映用戶的點擊偏好。同時,我們開發了一種以商品為中心的偏好優化策略,以確保微調后生成的背景內容與商品特征一致,從而增強廣告圖片的整體相關性和效果。大量實驗表明,我們的方法在在線和離線指標上均達到了最先進的性能。

?

一、背景及現狀

隨著圖像生成技術的發展,為商品生成和諧且逼真的背景成為可能。然而,大多數現有的廣告圖像生成方法主要關注離線指標,如圖像質量或語義一致性,而沒有充分考慮視覺內容與場域目標(如點擊率)之間的重要聯系。這導致生成的廣告圖像與符合實際用戶偏好的理想圖像之間存在顯著差異。

受最近RLHF方法的啟發,我們可以訓練一個獎勵模型(RM),再使用強化學習(RL)算法來微調生成模型,由RM提供獎勵以指導優化過程。這個流程的一個關鍵方面是RM能夠準確反映用戶對圖像的點擊偏好。然而,先前結合視覺內容進行點擊率(CTR)預測的方法圖像理解能力有限,且難以融合多模態特征(如下圖所示)。

wKgZPGfZC_6Ab-7IAAxMtZ2hrWE346.png

此外,廣告圖像生成中考慮背景與商品之間的相關性至關重要。現有的強化學習算法僅專注于優化獎勵值,忽視了視覺吸引力和背景相關性之間的平衡。這種疏忽可能導致背景與商品不協調,誤導用戶并導致糟糕的購物體驗。如下圖所示,雖然動態、運動風格的背景可能會提高運動鞋的點擊率,但模型可能錯誤地將類似的背景應用于化妝品等無關商品,從而破壞視覺和諧性和商品相關性。

wKgZO2fZDACAQR5FAAZUPovqCrw046.png

?

二、整體方案

在本文中,我們提出了一種點擊率驅動廣告圖像生成(CAIG)的新方法,旨在生成能夠吸引用戶興趣的引人注目的廣告圖像,如下圖所示。首先,我們在大規模多模態電商數據集上預訓練多模態大語言模型(MLLM),將領域特定知識注入模型中。這為我們的提示模型(PM)和獎勵模型(RM)奠定了基礎。然后,我們從預訓練的MLLM初始化RM,并在大量多模態在線用戶點擊數據上進一步訓練RM,使RM能夠模擬人類反饋。最后,我們引入了一個點擊率驅動的偏好優化階段,該階段采用以商品為中心的偏好優化(PCPO)作為核心策略。該階段利用RM的反饋對PM進行微調,最終生成既具吸引力又與商品相關的廣告圖像。

wKgZPGfZDAGAX6UQAAUM0QzeqXc987.png

三、電商知識預訓練

為了應對高效且可擴展的廣告創意生成的挑戰,我們通過在大規模多模態電商數據集上進行預訓練,在多模態大語言模型(MLLMs)強大功能的基礎上,注入了特定于電商領域的知識。該數據集包含來自京東電商平臺的120萬個樣本,如下表所示。具體來說,預訓練任務包括三個主要任務:

(1) 圖像理解:根據商品圖像描述商品或背景。

(2) 多模態內容理解:根據多模態商品信息(例如標題、類別、標簽)描述商品背景或生成商品標題。

(3) 提示詞生成:根據多模態商品信息生成或重寫提示詞。

wKgZO2fZDAKAUuTTAAMHJWmakyw969.png

四、基于MLLM的reward model

為了減輕不同商品類別之間CTR絕對值變化的影響,我們將CTR預測任務重新定義為圖像對之間的相對比較任務。具體來說,我們從用戶點擊數據中構建成對的訓練樣本,每對樣本包含同一商品的兩張廣告圖像及其對應的CTR。對于共享商品屬性的圖片對(I1,I2),我們首先將商品屬性與RM特定的問題模板Q_RM結合,使用提示工程函數f_instruct生成一個指令提示C_RM。然后將兩張圖像的視覺表征與文本表征連接起來,形成多模態輸入。

wKgZPGfZDAOATO6lAAAsWM05fZ0846.png

接下來,我們使用大語言模型(LLM)處理多模態輸入,生成隱藏狀態H。按照使用LLM進行序列分類的常規做法,我們利用H的最后一個token作為判別性表示,捕捉整個輸入序列的上下文信息。最后我們使用一個分類頭FC_cls,將最后一個token 映射到一個二維概率分布p上。此外,為了使模型能夠在復合圖像中對左圖和右圖的CTR進行精細的預測,我們引入了一個點級別的損失函數,通過一個獨立的CTR回歸分支來實現。最終,RM的損失函數是二元交叉熵損失和點級別損失的組合:

wKgZO2fZDAOAJ33LAAASQBGF5QQ540.png

?

五、CTR驅動優化

為了生成高CTR廣告圖像的,我們將該任務形式化為一個偏好選擇問題,鼓勵生成模型選擇更具吸引力的廣告圖像, 并拒絕吸引力較低的廣告圖像。這一過程包含兩個關鍵步驟:(1) 生成圖像對并使用RM比較它們的CTR,(2) 根據RM的反饋對生成模型進行微調,如下算法所示。

wKgZPGfZDASABWleAALbBUxLDMA922.png

為了生成廣告圖像,我們將PM生成的背景描述詞輸入Stable Diffusion,并使用ControlNet的inpaint操作來為商品生成背景??紤]到收集真實CTR反饋耗時且資源需求大,我們利用RM實時區分更具吸引力的和吸引力較低的圖像,以微調生成流程。這里我們采用直接偏好優化(DPO) 作為基本策略,該過程可表示為:

wKgZO2fZDAWAcxU9AABfAcelww0112.png

其中I_o和C表示商品的原始圖形和對應的指令。

值得注意的是,在DPO訓練過程中過度關注CTR優化可能會忽略偏好數據中的商品信息,導致生成圖像中前景和背景不匹配。因此,我們引入了以商品為中心的偏好優化(PCPO)。PCPO的核心機制是在訓練過程中將商品信息作為唯一變量,并構建額外的偏好數據對,從而鼓勵模型生成與商品特征相匹配的背景描述。具體來說,給定一個商品圖像I_o和指令C,我們構建偏好數據對 (I_o, y^+, y^-) ,其中y^+是與商品特征更匹配的背景描述,而y^-則是匹配度較低的背景描述。通過這種方式,我們確保生成的背景描述不僅吸引人,而且與商品信息一致。PCPO的目標可寫作:

wKgZPGfZDAaAfHI9AABnbAlCm_I255.png

最終,DPO和PCPO損失被用于聯合優化模型。

?

六、實驗結果

(1)Reward Model性能

我們在商業和公開數據集上進行了廣泛的實驗,將我們的方法與各種基于多模態大語言模型(MLLM)的開源和閉源模型進行了比較。如下圖所示,現有的閉源模型(如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V)在比較廣告圖像CTR方面表現不佳,準確率接近隨機水平(約50%的配對準確率),這表明這些模型盡管在通用任務上表現出色,但在廣告CTR任務中并未得到專門優化。開源模型如VAM和CG4CTR雖然有所改進,但由于其視覺表示能力較弱且無法有效整合多模態信息,表現仍然有限。相比之下,我們提出的方法在商業和公開數據集上均取得了最先進的性能。

wKgZPGfZDAeAXUi_AAFjIhFJogg694.png

(2)商品-背景相關性

為了確保公平比較,我們在CTR驅動優化過程中使用相同的RM進行CTR反饋,并且訓練輪數相同,來評估PCPO與標準DPO的性能。下圖展示了兩種方法在訓練過程中的表現。值得注意的是,標準DPO在訓練5個epoch后,匹配率顯著下降,從0.842降至0.597。而我們的PCPO則表現出更為平緩的下降趨勢,在第5個epoch時保持了0.798的匹配率,這比標準DPO在同一階段的表現高出33.7%。

wKgZO2fZDAiAEjT1AAGW5miBwLM975.png

下圖為我們的方案與DPO方案對比的定性分析:

wKgZO2fZEbKAYP5wAAt19jY2MjE946.png

(3)線上實驗

為了驗證我們提出的CAIG方法在提高生成廣告圖像CTR方面的有效性,我們在推薦廣告上進行了一周的在線實驗。我們為44個類目的商品生成了兩張圖像,這些類目幾乎涵蓋了所有常見的商品,遠超之前方法僅覆蓋的五個類目。我們在下表中報告了不同方法在所有類目和五個常見類目中的結果,其中CTR的提升是相對于直接使用預訓練的MLLM而言的。我們的RM在所有類目和五個常見類目中均優于之前的方法,證明了更準確的CTR預測能夠驅動生成模型產生CTR更高的圖像。我們還比較了僅使用DPO作為優化算法的效果,結果表明使用我們的PCPO可以使生成模型更加關注商品特征,從而提高CTR。

wKgZO2fZDAyASRBMAAEoSH7f6fU324.png

?審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    35093

    瀏覽量

    279501
  • DPO
    DPO
    +關注

    關注

    0

    文章

    14

    瀏覽量

    13742
  • 京東
    +關注

    關注

    2

    文章

    1023

    瀏覽量

    49269
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    重構零售數智化:Splashtop 8大核心場景應用實踐

    當下,零售業正加速擁抱智慧化轉型。面對門店設備管理分散、IT運維成本高企、跨區域協同效率低下、數據安全風險攀升等諸多挑戰,零售企業急需通過技術創新實現設備高效管理、降低運維成本、保障業務連續性。從
    的頭像 發表于 06-23 17:36 ?449次閱讀
    重構<b class='flag-5'>零售</b>數智化:Splashtop 8大核心場景應用實踐

    RFID零售標簽:革新服裝和鞋類庫存管理

    率先部署 RFID 的企業,已經開始收獲成效;而行動遲緩的企業,可能將無可挽回地被智能零售時代甩在身后。
    的頭像 發表于 06-05 17:11 ?171次閱讀
    RFID<b class='flag-5'>零售</b>標簽:革新服裝和鞋類庫存管理

    從校園實驗室到京東零售:一位算法工程師的風控實戰錄

    大家好,我是王曉婷,在京東零售研究廣告反作弊算法設計、實現與優化,結合LLM、深度學習、強化學習賦能反作弊系統,用算法識別和打擊數字廣告領域的欺詐行為。本文與大家分享我從高校實驗室到
    的頭像 發表于 05-22 16:39 ?386次閱讀
    從校園實驗室到<b class='flag-5'>京東</b><b class='flag-5'>零售</b>:一位算法工程師的風控實戰錄

    京東零售數據資產能力升級與實踐

    作者:京東零售 韓雷鈞 開篇 京東自營和商家自運營模式,以及伴隨的多種運營視角、多種組合計算、多種銷售屬性等數據維度,相較于行業同等量級,數據處理的難度與復雜度都顯著增加。如何從海量的數據模型與數據
    的頭像 發表于 02-21 09:50 ?473次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>數據資產能力升級與實踐

    熵基云聯入選《零售媒體化專項研究報告》

    近日,備受行業關注的《零售媒體化專項研究報告(2024年)》由中國連鎖經營協會(CCFA)權威發布。在該報告中,熵基科技旗下的智慧零售全新商業品牌——熵基云聯,憑借其卓越的創新性智慧零售解決方案
    的頭像 發表于 02-17 11:17 ?534次閱讀

    NVIDIA推出AI零售購物助手藍圖

    NVIDIA 于近日發布了用于零售購物助手的 NVIDIA AI Blueprint,這個生成式 AI 參考工作流旨在變革網購和實體店購物的體驗。
    的頭像 發表于 01-14 11:17 ?602次閱讀

    元太科技E Ink Spectra 6彩色電子紙 全系列于2025 NRF 零售大展盛大展出

    揚州2025年1月13日?/美通社/ -- 全球電子紙領導廠商E Ink元太科技今(13)日宣布,全系列適用于零售的E Ink Spectra? 6全彩電子紙產品,包含最新的廣告牌與電子價簽
    的頭像 發表于 01-14 09:32 ?516次閱讀

    物聯網如何改變零售行業

    零售商深知,節日的熱鬧氣氛讓顧客們忙著尋找完美的禮物和抓住年終優惠。這一直是公司最繁忙的時期之一,客流量和銷售額大幅增加。為應對激增的需求,零售商正轉向引入物聯網(IoT)技術,以通過智能零售
    的頭像 發表于 01-14 09:27 ?657次閱讀

    如何使用藍牙技術優化零售空間的運營方式

    近日,藍牙技術聯盟高級營銷項目經理Mindy Dolan有機會采訪到了高通技術公司副總裁兼零售物聯網全球負責人Art Miller,探討了如何使用藍牙技術優化零售空間的運營方式。
    的頭像 發表于 12-30 10:32 ?812次閱讀

    【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用

    調整廣告創意和文案等。通過持續優化廣告策略,大模型可以提高廣告的效率和投資回報率,為企業創造更大的經濟效益。 大模型可以根據消費者的多種特征和行為數據,進行精細的客戶細分。這種細分能力使企業能夠更有
    發表于 12-24 12:48

    Moloco: 將ML驅動的零售媒體廣告技術快速擴展至全球

    請求以滿足互聯世界的廣闊需求,并支持實時、數據驅動的決策。 零售業的競爭從未如此激烈,無論是對商店還是其供應商而言。要獲得盈利
    的頭像 發表于 12-04 10:38 ?808次閱讀

    NVIDIA Omniverse加速零售數字化轉型

    大模型、生成式 AI、數字孿生技術等前沿科技啟發了各行各業的新業務模態,在這一時代背景下 NVIDIA 作為 AI 技術的耕耘者、加速計算方面的領導者,看到了數字化浪潮中前所未有的變革,那么 NVIDIA 的產品和技術能為零售業做些什么?
    的頭像 發表于 11-09 13:52 ?925次閱讀

    定制球形LED異形創意顯示屏開啟360度沉浸式體驗創意玩法。

    球形LED異形創意顯示屏作為顯示技術的新寵,以其獨特的形態、卓越的顯示效果與無限的創意應用,正逐步改變著我們的視覺體驗方式。
    的頭像 發表于 11-03 12:35 ?755次閱讀
    定制球形LED異形<b class='flag-5'>創意</b>顯示屏開啟360度沉浸式體驗<b class='flag-5'>創意</b>玩法。

    京東廣告投放平臺整潔架構演進之路

    作者:京東零售 趙嘉鐸 前言 從去年開始京東廣告投放系統做了一次以領域驅動設計為思想內核的架構升級,在深入理解DDD思想的同時,我們基于廣告
    的頭像 發表于 09-18 10:26 ?1224次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>廣告</b>投放平臺整潔架構演進之路

    智慧零售:國產工控主板在智慧零售終端中的關鍵作用

    在數字化和智能化技術不斷推進的背景下,智慧零售不僅僅是技術的應用,更是零售業態和商業模式的全面升級。從傳統的店面銷售到以數據驅動的精準營銷和個性化服務,智慧零售正在改變消費者的購物體驗,也在重新定義
    的頭像 發表于 09-13 10:22 ?759次閱讀