黄色网站A片视频,日日操夜夜操很很操,亚洲AV国产AV欧美AV制服丝袜

圖像合成是計算機視覺中的一個重要問題。谷歌大腦的Ian Goodfellow等人在他們的最新研究中提出“自注意力生成對抗網絡”（SAGAN），將自注意力機制引入到卷積GAN中，作為卷積的補充，在ImageNet多類別圖像合成任務中取得了最優的結果。

圖像合成（Image synthesis）是計算機視覺中的一個重要問題。隨著生成對抗網絡（GAN）的出現，這個方向取得了顯著進展?；谏疃染矸e網絡的GAN尤其成功。但是，通過仔細檢查這些模型生成的樣本，可以觀察到，在ImageNet這類的有許多圖像類別的數據集上訓練時，卷積GAN合成的圖像不盡如人意。

針對這個問題，谷歌大腦的Ian Goodfellow和Augustus Odena，以及羅格斯大學的Han Zhang和Dimitris Metaxas等人在他們的最新研究中提出“自注意力生成對抗網絡”（SAGAN），將自注意力機制（self-attention mechanism）引入到卷積GAN中，作為卷積的補充，取得了最優的結果。

摘要

在這篇論文中，我們提出自注意力生成對抗網絡（ Self-Attention Generative Adversarial Network ，SAGAN）。SAGAN允許對圖像生成任務進行注意力驅動、長相關性的建模。傳統的卷積GAN生成的高分辨率細節僅作為在低分辨率特征圖上的空間局部點的函數。在SAGAN中，可以使用來自所有特征位置的線索來生成細節。此外，鑒別器可以檢查圖像的遠端部分的高度詳細的特征彼此一致。此外，最近的研究表明，生成器條件會影響GAN的性能。利用這些發現，我們將譜歸一化到GAN生成器中，并發現這改進了訓練動態。我們提出的SAGAN達到了state-of-the-art的結果，將Inception score從當前最高的36.8提高到52.52，并且在具有挑戰性的ImageNet數據集上將Frechet Inception distance從27.62降低到18.65。注意力層的可視化表明，生成器利用與對象形狀相對應的鄰域，而不是固定形狀的局部區域。

SAGAN：將自注意力機制引入GAN

盡管最先進的ImageNet GAN模型 [17] 擅長合成幾乎沒有結構性限制的圖像類別（例如，海洋、天空和景觀類，它們的區別更多在于紋理而不是幾何結構），但它無法捕獲在某些類別中經常出現的幾何模式或結構模式（例如，狗通常有逼真的皮毛紋理，但沒有明確區分的腳）。

一種可能的解釋是，以前的模型嚴重依賴于卷積來建模不同圖像區域之間的依賴關系。由于卷積運算符具有一個局部感受域，所以在經過幾個卷積層之后，只能處理長距離的相關性。

由于各種原因，這可能會阻止學習長相關性（long-term dependencies）：小的模型可能無法表示它們，優化算法可能無法發現參數值，這些參數值仔細協調多個層，以捕獲這些相關性，并且這些參數化在統計學上可能相當脆弱，當應用于以前未見過的輸入時容易失敗。增加卷積核的大小可以提高網絡的表征能力，但這樣做也會失去利用局部卷積結構獲得的計算和統計效率。

另一方面，自注意力（Self-attention）可以更好地平衡模型的長相關性和計算與統計效率。self-attention模塊以所有位置的特征加權和來計算響應，其中權重（或attention vectors）只以很小的計算成本來計算。

圖 1：我們提出的SAGAN通過利用圖像遠端部分的互補特征來生成圖像，而不是固定形狀的局部區域，從而可以生成一致的對象/場景。圖中每一行的第一個圖像顯示了帶顏色編碼點的五個代表性查詢位置。其他五個圖像是針對這些查詢位置的 attention maps，其中對應的顏色編碼的箭頭概括了最受關注的區域。

在這項工作中，我們提出了自注意力生成對抗網絡（SAGAN），它將自注意力機制（self-attention mechanism）引入到卷積GAN中。自注意力模塊（self-attention module）是對卷積的補充，有助于模擬跨越圖像區域的長距離、多層的依賴關系。通過self-attention，生成器可以繪制圖像，所繪制圖像中每個位置的精細細節都與圖像遠端的精細細節充分協調。此外，鑒別器還可以更準確地對全局圖像結構執行復雜的幾何約束。

圖2：所提出的self-attention機制。?表示矩陣乘法，在每一行上執行softmax操作。

除了self-attention之外，我們還將最近關于網絡調節（network conditioning）的見解與GAN的性能結合起來。A.Odena等人的研究[18]表明，調節良好的生成器往往表現更好。我們建議使用以前僅應用于鑒別器的譜歸一化技術（spectral normalization）來加強GAN生成器器的調節。

我們在ImageNet數據集上進行了大量的實驗，以驗證所提出的self-attention機制和穩定技術的有效性。SAGAN在圖像合成方面的表現遠遠超過了state-of-the-art的表現，將此前報告的最高Inception score從36.8提高到52.52，將Fréchet初始距離（Fréchet Inception distance，FID）從27.62降低到18.65。attention層的可視化顯示，生成器利用與對象形狀相對應的區域，而不是固定形狀的局部區域。

ImageNet上的圖像合成實驗

為了評價所提出的方法，我們在LSVRC 2012 （ImageNet）上數據集進行了大量的實驗。首先，我們對評估所提出的兩種穩定GAN訓練的技術進行有效性實驗。其次，對所提出的self-attention mechanism進行了研究。最后，將SAGAN與其他state-of-the-art的圖像生成方法進行了比較。

評估指標

我們使用Inception score（IS）和Fréchet初始距離（FID）進行定量評估。Inception score越高，表示圖像質量越好。 FID是一個更加基于規則和綜合性的指標，并且在評估生成的樣本的真實性和變異性方面已被證明與人類的評估更加一致。越低的FID值意味著合成數據分布與真實數據分布之間的距離更近。

圖3：基線模型與我們的模型的訓練曲線，利用了我們提出的穩定技術

表1：GAN的Self-Attention與Residual塊的比較。這些塊被添加到網絡的不同層。所有模型都經過100萬次迭代的訓練，并報告最佳的Inception score（IS）和Fréchet初始距離（FID）。

圖4：基線模型和我們的模型隨機生成的128×128圖像樣本

圖5：attention maps的可視化。這些圖像都由SAGAN生成。

與state-of-the-art模型的比較

在ImageNet上，SAGAN與最先進的GAN模型[19,17]進行了比較。如表2所示，我們提出的SAGAN得到了Inception score和FID。Inception score方面，SAGAN將此前0最高的36.8提高到52.52；FID（18.65）也表明，SAGAN可以通過使用self-attention模塊對圖像區域之間的全局依賴關系進行建模，從而更好地模擬原始圖像的分布。圖6展示了由SAGAN生成的一些示例圖像。

表2: 將所提出的SAGAN與最先進GAN模型進行比較，任務是ImageNet上的類別條件圖像生成。

圖6：SAGAN 生成的不同類別的128×128分辨率示例圖像。每行展示一個類別的示例。

總結

在本研究中，我們提出自注意力生成對抗網絡（SAGAN），它將self-attention機制引入到GAN的框架。 self-attention 模塊在建模長相關性（ long-range dependencies）方面很有效。另外，我們證明了應用于生成器的譜歸一化可以穩定GAN的訓練，并且TTUR加速了正則化鑒別器的訓練。SAGAN在ImageNet的分類條件圖像生成任務上達到最先進的性能。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴