0. 筆者個人體會
最近文本到圖像的工作很火,生成的圖像也非常真實(shí)。但還有個問題,現(xiàn)有工作效率比較低,往往只能接受一次text指令,再修改就要重新輸入text重新生成,可能會影響原本的語義信息,這樣導(dǎo)出的圖像和最初圖像可能差距甚遠(yuǎn)。
今天筆者將為大家分享一項(xiàng)最新開源的工作LEDITS++,可以一次輸入無限多的編輯指令,一次性生成真實(shí)圖像!而且LEDITS++是無參數(shù)方案,不需要微調(diào)和優(yōu)化。不得不感慨AI發(fā)展之迅速,距離人們真實(shí)生活也越來越近了。
下面一起來閱讀一下這項(xiàng)工作,文末附論文和代碼鏈接~
1. 效果展示
先看一下具體效果,輸入具體指令就可以直接產(chǎn)生對應(yīng)效果。PS要想在幾十秒內(nèi)達(dá)到同等效果應(yīng)該是有點(diǎn)困難。
LEDITS++很強(qiáng)調(diào)編輯前后的圖像一致性,也就是僅修改圖像的相關(guān)區(qū)域,保持原始圖像的語義信息。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。
代碼已經(jīng)開源了,官方主頁也開放了交互式demo,感興趣的讀者可以上傳自己的圖像和文本指令嘗鮮一下效果。
2. 具體原理是什么?
LEDITS++可以分為三個部分:(1)有效的圖像反轉(zhuǎn);(3)多功能文本編輯;(3)圖像變化的語義基礎(chǔ)。
我們知道擴(kuò)散模型生成圖像是通過反轉(zhuǎn)采樣來進(jìn)行的,重點(diǎn)是識別噪聲。LEDITS++從DDPM反演中提取特征,并提出一種有效的反演方法,大大減少所需的步驟,同時降低重建誤差。當(dāng)將反向擴(kuò)散過程公式化為SDE時,DDPM可以被視為一階SDE解算器。使用高階微分方程解算器可以更有效地解算,因此作者推導(dǎo)出一種新的更快技術(shù)------DPM-solver++反演。
在創(chuàng)建重建序列之后,可以通過一組編輯指令操縱噪聲來編輯圖像。根據(jù)有條件和無條件估計,作者分別設(shè)計了一個專門的引導(dǎo)項(xiàng),既反映了編輯的方向,又最大化了對所需編輯效果的細(xì)粒度控制。
最后,LEDITS++還包括一個Mask項(xiàng),由交叉注意層生成的Mask和噪聲估計導(dǎo)出的Mask取交集計算得到。Mask可以捕捉與編輯概念相關(guān)的圖像區(qū)域,對于多次編輯特別有效。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。
3. 和其他SOTA方法對比如何?
不同編輯方法的指令對齊和圖像相似度權(quán)衡的比較,側(cè)重CLIP得分(越高越好)與LPIPS相似度(越低越好),也就是圖中越靠近左上角效果越好。
-
圖像
+關(guān)注
關(guān)注
2文章
1092瀏覽量
41003 -
AI
+關(guān)注
關(guān)注
87文章
34144瀏覽量
275234 -
開源
+關(guān)注
關(guān)注
3文章
3582瀏覽量
43438
原文標(biāo)題:放下你的PhotoShop!無限圖像編輯已開源!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
開源鴻蒙開發(fā)者大會2025·AI分論壇圓滿閉幕,探索開源鴻蒙AI無限可能

從初學(xué)到進(jìn)階:樹莓派上最適合你的代碼編輯器推薦!

SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

開源鴻蒙技術(shù)分論壇在武漢成功舉辦
與鴻同行,探索無限!開源鴻蒙技術(shù)分論壇在武漢成功舉辦

高倍金相自動測量顯微鏡無限遠(yuǎn)光學(xué)系統(tǒng)

字節(jié)發(fā)布SeedEdit圖像編輯模型
圖像采集卡的接口類型有哪些?

評論