1769在线免费视频播放,龙小侠熟女小说,在线观看免费AV色婷婷

0. 筆者個人體會

最近文本到圖像的工作很火，生成的圖像也非常真實(shí)。但還有個問題，現(xiàn)有工作效率比較低，往往只能接受一次text指令，再修改就要重新輸入text重新生成，可能會影響原本的語義信息，這樣導(dǎo)出的圖像和最初圖像可能差距甚遠(yuǎn)。

今天筆者將為大家分享一項(xiàng)最新開源的工作LEDITS++，可以一次輸入無限多的編輯指令，一次性生成真實(shí)圖像！而且LEDITS++是無參數(shù)方案，不需要微調(diào)和優(yōu)化。不得不感慨AI發(fā)展之迅速，距離人們真實(shí)生活也越來越近了。

下面一起來閱讀一下這項(xiàng)工作，文末附論文和代碼鏈接~

1. 效果展示

先看一下具體效果，輸入具體指令就可以直接產(chǎn)生對應(yīng)效果。PS要想在幾十秒內(nèi)達(dá)到同等效果應(yīng)該是有點(diǎn)困難。

LEDITS++很強(qiáng)調(diào)編輯前后的圖像一致性，也就是僅修改圖像的相關(guān)區(qū)域，保持原始圖像的語義信息。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與源碼剖析》。

代碼已經(jīng)開源了，官方主頁也開放了交互式demo，感興趣的讀者可以上傳自己的圖像和文本指令嘗鮮一下效果。

2. 具體原理是什么？

LEDITS++可以分為三個部分：（1）有效的圖像反轉(zhuǎn)；（3）多功能文本編輯；（3）圖像變化的語義基礎(chǔ)。

我們知道擴(kuò)散模型生成圖像是通過反轉(zhuǎn)采樣來進(jìn)行的，重點(diǎn)是識別噪聲。LEDITS++從DDPM反演中提取特征，并提出一種有效的反演方法，大大減少所需的步驟，同時降低重建誤差。當(dāng)將反向擴(kuò)散過程公式化為SDE時，DDPM可以被視為一階SDE解算器。使用高階微分方程解算器可以更有效地解算，因此作者推導(dǎo)出一種新的更快技術(shù)------DPM-solver++反演。

在創(chuàng)建重建序列之后，可以通過一組編輯指令操縱噪聲來編輯圖像。根據(jù)有條件和無條件估計，作者分別設(shè)計了一個專門的引導(dǎo)項(xiàng)，既反映了編輯的方向，又最大化了對所需編輯效果的細(xì)粒度控制。

最后，LEDITS++還包括一個Mask項(xiàng)，由交叉注意層生成的Mask和噪聲估計導(dǎo)出的Mask取交集計算得到。Mask可以捕捉與編輯概念相關(guān)的圖像區(qū)域，對于多次編輯特別有效。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與源碼剖析》。

3. 和其他SOTA方法對比如何？

不同編輯方法的指令對齊和圖像相似度權(quán)衡的比較，側(cè)重CLIP得分(越高越好)與LPIPS相似度(越低越好)，也就是圖中越靠近左上角效果越好。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴