7月6日,這可能是一年中最適合親吻的日子——國際接吻日(International Kissing Day)。
這個節日最早起源于英國。1991年這個節日得到了聯合國的承認,也希望讓更多人知道,親吻的美好,這也是人類表達愛意最自然的一種方式。
那么,人工智能可以通過訓練了解親吻嗎?
來自Netflix的一位高級數據科學家就對“kiss”鏡頭情有獨鐘,并且通過上百部電影接吻情節的定位,成功訓練出了可以準確識別電影親吻橋段的AI模型——模型的獨創性在于可以區別親吻與性行為。
大千世界,無所不能,AI也能檢測到"kiss"?
讓AI區別kiss和sex
作為愛情片的代表情節,“親吻”一直是很多觀眾最愛反復觀看的鏡頭。不管是《人鬼情未了》中Swayze和Demi Moore的經典接吻橋段,還是《泰坦尼克號》中Rose和Jack的臨別一吻,都造就了經典中的經典。
而在電影觀看過程中,尋找kiss鏡頭,就成為了不少娛樂視頻場景下的一個真實需求。
這項基于人工智能識別接吻的研究由出自Netflix高級數據科學家Amir Ziai之手——此時他正在斯坦福大學攻讀人工智能研究生學位。
Ziai在上世紀好萊塢電影中挑選了100部有代表性的作品,并為電影片段手動標注“親吻”或“非親吻”標簽,用靜態畫面和聲音片段來訓練深度學習算法,以實現對親吻場景的畫面和聲音的識別。
為了避免任何人得到錯誤的印象,目前還不能確定親吻識別算法能否用于***場景。Ziai說到,“在我的訓練集中,我盡量避免出現***場景,這樣就能確保我的模型不會混淆接吻和***。”
Ziai目前的雇主Netflix并沒有參與到斯坦福大學的這個項目上,但該項目在arXiv中有詳細記載;另外,即使Ziai還沒去調研這項研究在Netflix上的應用,但是不難想象,Netflix或其他公司(如YouTube,Facebook,Instagram和TikTok等處理大量流媒體或存儲視頻的公司)可能會對這一技術的商業應用場景感興趣。
該圖是1990年的電影《人鬼情未了》中Swayze和Demi Moore的經典接吻橋段,數據科學家便是用了近百部類似的電影橋段來訓練AI模型識別親吻的行為。
感興趣的讀者可以閱讀論文原文,附上地址:
https://arxiv.org/pdf/1906.01843.pdf
“雙管齊下”:不僅視頻識別,還有kiss的音頻識別
應用于接吻場景視覺識別最成功的深度學習模型是ResNet-18,這是一種圖像分類算法,且該算法經來自ImageNet數據庫超過一百萬張圖像的預訓練;而為了識別接吻場景的聲音,研究人員采用了名為VGGish的深度學習模型,通過每個以秒分段的場景的后960毫秒音頻訓練。這種雙管齊下對接吻的圖像和音頻同時處理的AI方法使得訓練出的模型獲得了驚人的F1分(算法精度和準度的加權平均值,度量模型的一種指標)——0.95。
ResNet-18模型結構圖
在模型結構中,采用"shortcut connection”方式,也就是上圖中的弧線來減少卷積網絡傳播過程中的計算和參數量,感興趣的讀者可以研究下,VGGish是是產生音頻數據集的工具,一般用于音頻分類。
github網址如下:
https://github.com/tensorflow/models/tree/master/research/audioset
不過在面對電影場景中一些棘手的片段或某些拍攝機視角時,該模型還是略顯吃力。例如,遠景或廣角的接吻鏡頭會使算法產生混淆,因為此類視頻片段中包含了太多背景畫面。此外,一些快節奏的視頻片段和不同時包含兩個演員的鏡頭對模型來講也都是極大的挑戰。
電影《Titanic》中Jack和Rose在郵輪甲板上擁吻圖片
深度學習是一個“黑盒子”,我們很難弄清楚深度學習模型實現預測時所使用的的具體數據模式。為了嘗試理解AI的邏輯,人們通常采用的一種方法是使用顯著地形圖來可視化分析過程中受到AI關注最多的數據。在好萊塢影片識別接吻場景的項目中,深度學習模型似乎更加關注與演員面部相關的圖像像素點。
Ziai表示,即使是在少量有限的實驗中也可以看出,人工智能更依賴視覺特征而不是音頻特征來識別接吻場景。他發現“精心挑選的數據集”對于訓練接吻檢測系統有很大幫助,這類數據可以讓該系統利用更多的上下文信息來檢測接吻,而不僅僅是通過靜態圖像。
AI“kiss”之原理
AI模型是如何習得這種能力呢?
和初吻尚在的人類學習基本親吻知識的途徑一樣,AI模型基于已經成熟的深度學習算法,觀看各式各樣的好萊塢明星上演的浪漫擁吻片段,通過這種大量的訓練來識別影片中人物的面部表情和定位嘴唇,數據科學家說明了AI系統如何能夠更深入地了解最親密的人類活動的原理。
讓AI識別kiss有什么用?
早在2019年4月,谷歌宣布其智能手機Pixel已更新其Photobooth功能,這項功能可以在你面部表情發生變化的時候自動拍照,比如說微笑、親吻、嘟嘴、伸舌頭等等,該功能可是使智能手機從手機拍攝的視頻中識別出接吻畫面。
具體來說,當你按下Photobooth功能的拍攝按鍵之后,手機的AI就會自動分析你的臉部表情。根據不同狀態,手機會自動判定「最佳時刻」,并將這一刻記錄下來。同樣,Ziai研發的應用端視頻接吻識別技術使我們看到了視頻內容自動分類,用戶個性化視頻推薦,甚至視頻在線內容審核的未來。
Pixel手機Photobooth功能拍攝的靜態圖片
OpenAI的策略和傳播主管Jack Clark在他的文章《Import AI newsletter》中重點強調了這項研究的意義:“現代計算機視覺技術已經使得開發特定的'感知和響應類'軟件變得相當容易,諸如識別定性或非結構化的東西,識別電影中的接吻場景就是一個極佳的例子,但此類AI對個人軟件的應用能力明顯被低估。”
AI“kiss”之未來
好萊塢影片數據集和計算資源由斯坦福大學計算機科學助理教授Kayvon Fatahalian的實驗室提供。
目前,這個用100部好萊塢影片(如《安娜·卡列尼娜》(1935),《人鬼情未了》(1990)和《007:大戰皇家賭場》(2006)等)訓練的AI模型在面對更大規模的影片時性能尚不清楚。但Ziai表示,在經超過80個影片進行訓練后,該模型只看到了“邊際改善”。
另一個值得關注的問題是這種AI模型在檢測來自社交媒體的不同類型接吻場景視頻時否能達到相似的準確度。這是個極大的挑戰,可能需要模型對更多的視頻數據集進行額外訓練,而且訓練集中不能僅包含那些出現在電影銀幕上諸如Patrick Swayze和Demi Moore的好萊塢明星。盡管如此,從一些非常初步的測試中能看出,這種基于AI的接吻測技術會有很好的的應用前景。
“未來研究將盡量使用更多樣化的數據集,以確保模型不會對于某種類型的電影過擬合,”Ziai說道,“不過有趣的是,該模型在我所選的YouTube視頻上性能表現得相當好。”
-
AI
+關注
關注
88文章
35117瀏覽量
279667 -
深度學習
+關注
關注
73文章
5561瀏覽量
122793
原文標題:Netflix一位數據科學家剪出了上百部愛情片,想教AI認識“親吻” | 國際接吻日
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
端側OCR文字識別實現 -- Core Vision Kit ##HarmonyOS SDK AI##
AI視覺識別收銀稱:水果生鮮店的“智能店員”

《AI Agent 應用與項目實戰》----- 學習如何開發視頻應用
HarmonyOS NEXT 應用開發練習:AI智能對話框
AI智能識別監測攝像機

AI圖像識別攝像機

評論