我們看到了智能技術(shù)在影像辨識、偵測上的突破,甚至落地為產(chǎn)品。很多人問,這些深度學習為核心的計算機視覺技術(shù)也可以具有人類的美感—具有評判、編修、甚至美學創(chuàng)作的能力嗎?
智能視覺美感技術(shù)大致可以區(qū)分為三類:首先為影像(或視訊)編修強化,包括修圖(對比、亮度、景深等)、超高分辨率成像、突破壓縮技術(shù)、改善電視顯像質(zhì)量、加速電影(內(nèi)容)特效制作、甚至主動改善車輛安全駕駛在低亮度下的視訊質(zhì)量;其次為照片美學評分、取景,自動挑選具美感的照片或是畫面;第三為自動生成不存在的影像。而這些核心技術(shù)所啟發(fā)的應用都已經(jīng)是進行式,或是即將落地為產(chǎn)品。
相關(guān)技術(shù)大大改變數(shù)位內(nèi)容產(chǎn)業(yè)。梵谷油畫電影《梵谷:星夜之謎(Loving Vincent)》耗時6年,動員超過百位來自世界各地的畫家才完成這個耗時、耗資的工作。目前已經(jīng)有軟件服務完成類似的功能,可以讓一般人自動將影片轉(zhuǎn)換為特定畫家的風格,透過畫家的經(jīng)典創(chuàng)作,讓卷積網(wǎng)絡(CNN)的數(shù)千萬個參數(shù),學習到影像轉(zhuǎn)換的方式,均衡風格跟影片內(nèi)容。我們在兩年前參與的IBM華生研究中心預告片自動剪輯研究,也同樣帶來類似產(chǎn)業(yè)的突破。
一般的卷積網(wǎng)絡架構(gòu)為設(shè)計適合的編碼器以及相對的譯碼器;前者將畫面內(nèi)容解析之后,透過后者生成適切的影像(強化或是編修),大量的卷積網(wǎng)絡參數(shù)透過事前的訓練數(shù)據(jù)來達成目的。而時常被忽略的是適合的目標函數(shù),通常得同時使用多個,并將領(lǐng)域知識吸納其中,這是成功與否的重要關(guān)鍵!
在美學評分方面,一般利用卷積網(wǎng)絡加上回歸函式來逼近美感分數(shù)。最大的挑戰(zhàn)在于訓練的數(shù)據(jù)。因為嚴謹?shù)拿栏袪可娴轿幕⑸鐣⒁约皞€人的差異,可以取得的訓練數(shù)據(jù)─不管是透過人工標注或是社群網(wǎng)絡下載—不全具代表性,很難學習到通用的美感。不過在特定家用照片上,透過自動評分,甚至修正照片(旋轉(zhuǎn)、取景、飽和度等)等都已經(jīng)落地在國內(nèi)外的各種應用當中。如果能進一步熟悉應用場域,個人化適性學習,將有更大發(fā)揮的空間。
最具挑戰(zhàn)的是從無到有生成具美感的影像,一般都嘗試利用生成對抗網(wǎng)絡(GAN)來實現(xiàn),但是目前在速度、分辨率、生成質(zhì)量控制上都還有相當努力的空間。
值得產(chǎn)業(yè)注意的是,我們觀察到這些視覺美感智能突破也逐漸由云端走入本地端。相機、攝影機、電視等相關(guān)芯片都已經(jīng)看到國內(nèi)外的公司正逐漸布局。因為提供具美感的生活體驗,不正也是智能時代的新產(chǎn)品嗎?
-
計算機視覺
+關(guān)注
關(guān)注
9文章
1709瀏覽量
46782 -
深度學習
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122803
原文標題:【椽經(jīng)閣】智能技術(shù)可以具有人類的視覺美感嗎?
文章出處:【微信號:DIGITIMES,微信公眾號:DIGITIMES】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應用
英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

Arm KleidiCV與OpenCV集成助力移動端計算機視覺性能優(yōu)化
AR和VR中的計算機視覺

【「具身智能機器人系統(tǒng)」閱讀體驗】+兩本互為支持的書
【小白入門必看】一文讀懂深度學習計算機視覺技術(shù)及學習路線

AI干貨補給站 | 深度學習與機器視覺的融合探索

ARMxy嵌入式計算機在機器視覺中的卓越表現(xiàn)

初創(chuàng)公司SEA.AI利用NVIDIA邊緣AI和計算機視覺技術(shù)變革航海安全系統(tǒng)
ARMxy ARM嵌入式計算機搭載 1 TOPS NPU支持深度學習

計算機視覺有哪些優(yōu)缺點
圖像處理器與計算機視覺有什么關(guān)系和區(qū)別
計算機視覺中的圖像融合

評論