女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PPTAgent: 大模型驅(qū)動的PPT自動生成

中科院軟件所中文信息處理實(shí)驗(yàn)室 ? 來源:中科院軟件所中文信息處 ? 2025-01-21 10:24 ? 次閱讀

論文題目

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

論文鏈接

https://arxiv.org/abs/2501.03936

項(xiàng)目倉庫

https://github.com/icip-cas/PPTAgent

演示視頻

在數(shù)字化時(shí)代,演示文稿(PPT)作為信息傳遞的重要媒介,其自動化生成需求愈發(fā)迫切。然而,一份優(yōu)秀的演示文稿不僅需要引人入勝的故事線,還需要抓人眼球的視覺效果和內(nèi)容的有效組織,這對創(chuàng)作者提出了極高的要求。針對這一挑戰(zhàn),中國科學(xué)院軟件研究所中文信息處理實(shí)驗(yàn)室提出了一種突破性的演示文稿自動生成框架 PPTAgent。

不同于傳統(tǒng)的端到端生成方法,PPTAgent 借鑒了人類創(chuàng)作 PPT 的過程,采用基于編輯的工作流程。正如經(jīng)驗(yàn)豐富的演講者往往會參考優(yōu)秀的演示文稿來優(yōu)化自己的作品,PPTAgent 也通過分析和編輯參考演示文稿來生成新的內(nèi)容。

PPTAgent 設(shè)計(jì)的框架包含兩個(gè)關(guān)鍵階段:首先是“演示文稿分析”階段,系統(tǒng)會深入分析作為參考的演示文稿,提取每張幻燈片的語義信息。隨后在“演示文稿生成”階段,系統(tǒng)首先會基于文檔內(nèi)容生成詳細(xì)的演示大綱,并為每張幻燈片分配合適的參考模板及相關(guān)文檔段落。對于待生成的每張幻燈片,PPTAgent 能夠根據(jù)輸入內(nèi)容自動調(diào)整幻燈片參考模板中的文本和視覺元素,通過生成的代碼指令來完成元素的創(chuàng)建、編輯和刪除等操作。通過這種方式,PPTAgent 不僅確保了生成內(nèi)容的連貫性,還保持了視覺設(shè)計(jì)的美觀度。

同時(shí),我們還提出了首個(gè)全面的演示文稿評估框架 PPTEval,從內(nèi)容、設(shè)計(jì)和結(jié)構(gòu)連貫性三個(gè)維度評估演示文稿的質(zhì)量,為自動化生成技術(shù)的改進(jìn)提供了細(xì)粒度的反饋。實(shí)驗(yàn)結(jié)果表明,PPTAgent 能夠生成高質(zhì)量的演示文稿,在 PPTEval 的評估中取得了 3.67 的平均得分,并在來自不同領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)上展現(xiàn)出了 97.8%的任務(wù)成功率。

PPTAgent

ef57fafa-d63c-11ef-9310-92fbcf53809c.png

階段一:演示文稿分析 在這個(gè)階段,PPTAgent 首先對參考演示文稿進(jìn)行全面分析以提取其中包含的語義信息。具體來說:

根據(jù)功能將幻燈片分為兩大類:支持演示結(jié)構(gòu)的幻燈片(如開場頁)和傳遞具體內(nèi)容的幻燈片(如要點(diǎn)頁)。針對不同類型,PPTAgent 采用基于圖片相似度或大語言模型的方法對參考演示文稿中的幻燈片進(jìn)行聚類,并利用大語言模型的上下文感知能力對該頁的功能進(jìn)行描述。

考慮到現(xiàn)實(shí)世界中幻燈片內(nèi)容的復(fù)雜性和碎片性,我們利用大語言模型進(jìn)一步地提取幻燈片的內(nèi)容模式(schema),包括幻燈片元素的類別、形式和具體內(nèi)容。這些信息為后續(xù)的編輯過程提供了重要指導(dǎo)。

階段二:演示文稿生成

在生成階段,我們采用了基于編輯的生成范式,具體流程包括:

首先根據(jù)上一階段分析得到的幻燈片語義信息和輸入文檔生成結(jié)構(gòu)化大綱,為新演示文稿中的每張幻燈片指定參考模板和輸入文檔中的相關(guān)內(nèi)容。

基于我們設(shè)計(jì)的 API 接口,生成可執(zhí)行的代碼指令來對幻燈片中的元素進(jìn)行編輯修改。此外,我們還引入了實(shí)時(shí)的錯誤反饋機(jī)制,系統(tǒng)能夠根據(jù)執(zhí)行過程中的錯誤反饋進(jìn)行自我糾正,顯著提高了生成的穩(wěn)定性。

PPTEval:基于 LLM-as-a-Judge 范式的幻燈片質(zhì)量評估

此外,為了能夠有效和全面地評估生成幻燈片的質(zhì)量,我們還開發(fā)了 PPTEval 評估框架,利用大語言模型來從三個(gè)維度對演示文稿進(jìn)行全面評估:

內(nèi)容(Content):評估幻燈片中文本和圖像的相關(guān)度、文本內(nèi)容信息量和質(zhì)量,確保傳達(dá)的信息簡潔、準(zhǔn)確且具備實(shí)用性。

設(shè)計(jì)(Design):關(guān)注幻燈片的色彩搭配、視覺元素的使用和整體設(shè)計(jì)的專業(yè)性,確保視覺呈現(xiàn)和內(nèi)容相輔相成。

連貫性(Coherence):評估幻燈片的邏輯結(jié)構(gòu)和上下文信息的完整性,確保內(nèi)容流暢且符合邏輯,觀眾易于理解。

ef81e6d0-d63c-11ef-9310-92fbcf53809c.png

實(shí)驗(yàn)

數(shù)據(jù)集

為了全面評估 PPTAgent 的性能,我們首先構(gòu)建了一個(gè)包含 10,448 份多領(lǐng)域演示文稿的數(shù)據(jù)集 Zenodo10K,這也是目前已知最大的幻燈片數(shù)據(jù)集。在此基礎(chǔ)上,我們在三個(gè)常用的大語言模型:GPT-4o、Qwen2.5-72B(Qwen2.5)和 Qwen2-VL-72B(Qwen2-VL)上進(jìn)行了實(shí)驗(yàn)。

efa3476c-d63c-11ef-9310-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果

超高的生成成功率:PPTAgent 展現(xiàn)出卓越的魯棒性,使用 GPT-4o 或 Qwen2.5+Qwen2-VL 組合時(shí),均實(shí)現(xiàn)了超過 95%的生成成功率。這一成績遠(yuǎn)超此前模板編輯任務(wù)僅有 10%的成功率。

全方位的質(zhì)量提升:與基線方法相比,PPTAgent 在幻燈片的各個(gè)維度都取得了顯著進(jìn)步:

設(shè)計(jì)維度得分提升 40%(3.24 vs 2.33)

連貫性維度提升 34%(4.39 vs 3.28)

內(nèi)容質(zhì)量提升 9%(3.25 vs 2.98)

開源模型的出色表現(xiàn):值得一提的是,Qwen2.5 與 Qwen2-VL 的組合有效地克服了 Qwen2-VL 在語言處理方面的局限性,其整體表現(xiàn)也達(dá)到了與 GPT-4o 相當(dāng)?shù)乃剑宫F(xiàn)了開源大模型在專業(yè)領(lǐng)域的應(yīng)用潛力。

efbb1cac-d63c-11ef-9310-92fbcf53809c.png

評估結(jié)果的可靠性驗(yàn)證:為確保評估結(jié)果的可靠性,我們將 PPTEval 的評估結(jié)果與人工評估進(jìn)行了一致性分析。分析結(jié)果表明,PPTEval 在三個(gè)維度上的平均皮爾遜相關(guān)系數(shù)為 0.71,顯示其能夠有效地代替人類評估幻燈片的質(zhì)量。

總結(jié)

通過這項(xiàng)研究,我們將演示文稿的自動生成重新定義為一個(gè)基于編輯的兩階段任務(wù)。PPTAgent 充分利用了大語言模型對代碼的理解和生成能力,通過分析參考演示文稿的文本特征和布局模式,有效地組織和生成新的演示文稿。在多個(gè)領(lǐng)域的實(shí)驗(yàn)驗(yàn)證中,PPTAgent 都能夠魯棒地生成高質(zhì)量幻燈片。同時(shí),我們提出的 PPTEval 評估框架為演示文稿生成任務(wù)提供了可靠的評估手段,為該領(lǐng)域的未來發(fā)展奠定了重要基礎(chǔ)。 這項(xiàng)技術(shù)有望開創(chuàng)一種全新的無監(jiān)督演示文稿生成范式,為未來研究提供了新的思路。通過這項(xiàng)技術(shù),我們期待能夠幫助更多人高效地創(chuàng)作專業(yè)的演示文稿,讓信息傳遞變得更加便捷。最后,通過開源的 PPTAgent、PPTEval 和大規(guī)模幻燈片數(shù)據(jù)集 Zenodo10K,我們希望能夠推動整個(gè)領(lǐng)域的發(fā)展,激發(fā)更多創(chuàng)新性的研究成果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • ppt
    ppt
    +關(guān)注

    關(guān)注

    1

    文章

    45

    瀏覽量

    17885
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3026

    瀏覽量

    3825

原文標(biāo)題:PPTAgent: 大模型驅(qū)動的PPT自動生成,解放打工人

文章出處:【微信號:gh_e5b9d8c5c1d4,微信公眾號:中科院軟件所中文信息處理實(shí)驗(yàn)室】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?291次閱讀

    用對軟件,DeepSeek + Kimi,PPT一鍵生成秘籍!

    和大家分享一下如何利用這兩個(gè)工具快速制作出精美的PPT。 一,DeepSeek:快速生成PPT大綱 DeepSeek是一款智能AI助手,能夠根據(jù)你的需求快速生成
    的頭像 發(fā)表于 02-19 16:13 ?1552次閱讀
    用對軟件,DeepSeek + Kimi,<b class='flag-5'>PPT</b>一鍵<b class='flag-5'>生成</b>秘籍!

    生成式人工智能模型的安全可信評測

    近些年來,生成式人工智能技術(shù)取得了飛躍發(fā)展。隨著各式各樣的大模型不斷迭代升級,從一般通用生成能力,到各種專有領(lǐng)域的細(xì)分能力,再到更注重與用戶的實(shí)際交互,大模型的各項(xiàng)能力顯著提升,人工智
    的頭像 發(fā)表于 01-22 13:55 ?896次閱讀
    <b class='flag-5'>生成</b>式人工智能<b class='flag-5'>模型</b>的安全可信評測

    AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?

    電子發(fā)燒友網(wǎng)站提供《AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?.pdf》資料免費(fèi)下載
    發(fā)表于 01-13 14:21 ?0次下載
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它們是如何<b class='flag-5'>生成</b>的?

    NVIDIA推出多個(gè)生成式AI模型和藍(lán)圖

    NVIDIA 宣布推出多個(gè)生成式 AI 模型和藍(lán)圖,將 NVIDIA Omniverse 一體化進(jìn)一步擴(kuò)展至物理 AI 應(yīng)用,如機(jī)器人、自動駕駛汽車和視覺 AI 等。全球軟件開發(fā)和專業(yè)服務(wù)領(lǐng)域的領(lǐng)先企業(yè)正在使用 Omnivers
    的頭像 發(fā)表于 01-08 10:48 ?515次閱讀

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示
    的頭像 發(fā)表于 01-03 10:38 ?807次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質(zhì)量圖像

    大語言模型優(yōu)化生成管理方法

    大語言模型的優(yōu)化生成管理是一個(gè)系統(tǒng)工程,涉及模型架構(gòu)、數(shù)據(jù)處理、內(nèi)容控制、實(shí)時(shí)響應(yīng)以及倫理監(jiān)管等多個(gè)層面。以下,是對大語言模型優(yōu)化生成管理方
    的頭像 發(fā)表于 12-02 10:45 ?335次閱讀

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?736次閱讀

    探索設(shè)計(jì)稿自動生成Flutter代碼的技術(shù)方案

    作者:京東物流 冷先鋒 近年來,隨著人工智能和大模型技術(shù)的發(fā)展,設(shè)計(jì)稿(UI視圖)自動生成代碼的技術(shù)也在不斷進(jìn)步。本文將探討幾家知名企業(yè)在這一領(lǐng)域的探索和實(shí)踐,包括美團(tuán)、京東、微軟等,以及一些常見
    的頭像 發(fā)表于 11-08 10:09 ?1597次閱讀
    探索設(shè)計(jì)稿<b class='flag-5'>自動</b><b class='flag-5'>生成</b>Flutter代碼的技術(shù)方案

    如何自動生成verilog代碼

    介紹幾種自動生成verilog代碼的方法。
    的頭像 發(fā)表于 11-05 11:45 ?922次閱讀
    如何<b class='flag-5'>自動</b><b class='flag-5'>生成</b>verilog代碼

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這一舉措標(biāo)志著火山引擎在視頻內(nèi)容生成領(lǐng)域邁出了重要一步。豆包模型憑借其獨(dú)特的技術(shù)優(yōu)勢,吸引了業(yè)
    的頭像 發(fā)表于 09-25 14:11 ?543次閱讀

    TINA自動生成外形出錯怎么解決?

    我從TI官網(wǎng)下載了LM5145的PSPICE模型,想在TINA-TI中創(chuàng)建一個(gè)新宏,但是在自動生成外形的時(shí)候出錯了。請問這種問題怎么解決
    發(fā)表于 08-13 07:39

    聲智完成多項(xiàng)生成式算法和大模型服務(wù)備案

    2024年7月20日,北京聲智科技有限公司依據(jù)國家《生成式人工智能服務(wù)管理暫行辦法》,順利完成了壹元大模型生成式人工智能(大語言模型)服務(wù)上線備案。
    的頭像 發(fā)表于 07-23 15:25 ?869次閱讀
    聲智完成多項(xiàng)<b class='flag-5'>生成</b>式算法和大<b class='flag-5'>模型</b>服務(wù)備案

    生成式AI與神經(jīng)網(wǎng)絡(luò)模型的區(qū)別和聯(lián)系

    生成式AI與神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)代人工智能領(lǐng)域的兩個(gè)核心概念,它們在推動技術(shù)進(jìn)步和應(yīng)用拓展方面發(fā)揮著至關(guān)重要的作用。本文將詳細(xì)探討生成式AI與神經(jīng)網(wǎng)絡(luò)模型的定義、特點(diǎn)、區(qū)別、聯(lián)系以及它們在
    的頭像 發(fā)表于 07-02 15:03 ?1536次閱讀

    Runway發(fā)布Gen-3 Alpha視頻生成模型

    專為電影和圖像內(nèi)容創(chuàng)作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經(jīng)正式問世。這款模型在多方面均取得了顯著的進(jìn)步,為創(chuàng)作者們帶來了前所未
    的頭像 發(fā)表于 06-19 09:25 ?802次閱讀