這幾天,計算機視覺和模式識別領域的頂級會議 CVPR 2021(Computer Vision and Pattern Recognition)正在火熱進行中,剛剛從加州大學洛杉磯分校(UCLA)博士畢業的石家莊女生范麗鳳,提及此次被錄用的論文表示:“在 CV 和 AI 領域,中國人的貢獻和力量是毋庸置疑和不容小覷的。”
在最終評審中她獲得了接近滿分的成績,三位審稿人中兩位給了 “Strong Accept”,一位給了 “Accept”。
范麗鳳是計算機視覺大牛朱松純教授的博士生。2020 年,朱松純全職回國并入職北大,還牽頭成立了北京通用人工智能研究院,一度曾在國內引起過熱議。
最近剛剛博士畢業的范麗鳳也即將跟隨導師朱松純教授回國工作,其表示:“朱老師肯定希望我們可以回去支持國內的 AI 事業,我自己也覺得國內有巨大的發展空間,也更喜歡國內的文化環境,并且在朱老師的研究院我還可以繼續推進一直以來的研究工作,這是一個很好的機遇。”
范麗鳳本科和博士期間學的都是統計學。2012 年,她從河北辛集中學考入浙江大學數學科學學院,主修統計學,在四年的本科學習訓練中掌握了統計建模和編程實現的基本能力。
2015 年大三暑假,她參加了 UCLA-CSST 暑期科研訓練項目,在 Hongjing Lu 教授(UCLA 心理系和統計系教授)的指導下開展了一項關于動作識別的研究。自那時起,范麗鳳開始對計算機視覺產生了濃厚的興趣。
項目快結束時,她特意寫郵件并去實驗室拜訪了時任 UCLA 統計系和計算機科學系教授的朱松純。經過交談,朱教授鼓勵她多讀實驗室的相關論文、多學點計算機視覺的基礎課程,為進行科研打下堅實的基礎。
回到浙大后,范麗鳳利用大四的時間,積極主動修習了計算機視覺的相關課程,閱讀了一些基礎的專業書籍和論文。經過再三考慮,她下定決心申請了朱教授的博士,最終如愿獲得了錄取,來到 UCLA VCLA 實驗室進行了為期五年的博士生科研訓練,獲得了巨大的成長。
基于真實視頻,研究高級 AI 任務
談及本次論文的立項原因,她表示是因為朱教授一直都在鼓勵她做更難、更有挑戰性和前瞻性的工作。
雖然近幾年得益于深度學習,計算機視覺領域獲得了突破性的進展,但大多研究都還是在解決比較底層的任務,比如人臉識別、動作識別等等,而更高級的任務,比如心智理論建模等等,還遠未得到解決。
現有的解決更高層次任務的嘗試,也大都不是基于真實視頻:比如,有一些工作在 2D 網格狀世界里面進行基于強化學習的理論建模研究,有一些工作則在簡單游戲中進行多智能體的交互博弈策略優化,對游戲中涉及到的多智能體心智理論進行建模研究。
范麗鳳說上述兩類研究中,一類是基于真實視頻做低層次任務,另一類雖然在做高層次任務,但目前還只是停留在簡單模擬環境或博弈游戲中。
而她的研究則彌補了這個空缺,在真實視頻上進行復雜的心智建模,推測視頻背后人物的心智活動。
基于 “共同心智” 提出 “五心” 模型
范麗鳳說,自然語言處理(Natural Language Processing)目前已經是一個非常成熟的研究領域,高級人工智能的實現當然離不開自然語言處理技術的進步;但非語言交流(nonverbal communication)在人與人的社會交互中也扮演著十分重要的角色,傳遞著豐富的信息,是對語言交流的很好補充。
這里,非語言交流指的是除自然語言之外的所有其它交流形式,比如眼神、身體體態和空間朝向、頭部姿勢以及手勢等等。
通過讓機器從視頻中學習非語言交流背后的三元信念動態變化(Triadic Belief Dynamics),就可以破解非語言交流的密碼,捕捉到這些隱含的豐富的社會交互信息。
結合不同的非語言交流信號,范麗鳳的工作對純視頻輸入中人與人的社會交互以及背后的動態信念變化進行了建模學習和推斷,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。
“五心” 具體指的是什么呢?當 A、B 兩個人在一個空間交流時,A 對于世界有自己的看法和認知,這是他自己的大腦 M1, B 也有一個自己的大腦 M2;
同時,A 對 B 的大腦 M2 有一個模擬估計的大腦 M12,B 也有對 A 的大腦 M1 有自己的估計 M21;
此外,A 和 B 所共享的那些 “透明” 的信息則被稱為兩個人的共同心智(common mind),記為 Mc。這便是 “五心” 模型的五個 “心”(mind)。
心智理論比較關心信念(belief)、注意力(attention)和意圖(intention)等模塊,當前的 “五心” 模型主要研究了信念(belief)這一心智模塊。
也就是說,范麗鳳的工作主要研究了在社會交互過程中兩個人對于世界認知信念的動態變化。
基于貝葉斯能量模型,使用圖結構解析社交視頻
范麗鳳為研究這個任務,專門拍攝收集了一個數據集,并進行了全面豐富的標注。目前該數據集已經在 GitHub 上公開。
范麗鳳提出了一個基于貝葉斯的能量模型來解決五心模型中信念動態變化的學習和推測問題,通過對視頻構建一個六層的解析圖,來分層次地解析視頻中的社會交互場景。
在這個六層的解析圖中,最底層是檢測到的人和物體以及提取出來的關鍵特征;這些人和物體組成視頻的每一幀;再往上一層,是視頻時序上的分段;
再往上,可以知道在每一段中發生的具體的交流事件的類型(一共有三種基本交流事件,分別是 no communication, attention following 和 joint attention);
繼續往上一層,是相應的交流事件導致了什么樣的信念變化(一共有四種基本的信念變化,分別是 occur, disappear, update 和 null)。
通過這樣一個多層次的解析圖,就從底層的模式識別進入到了高層次的認知理解。因為機器還無法達到人類的智能高度,無法直接感知到模式背后的心智變化,必須從最底層的模式識別(比如物體識別和人體識別)開始,然后慢慢往上推,往更高層的任務去走。
如此就能知道這些檢測到的人和物體合起來發生了怎樣的相對交互,具體發生了怎樣的交流事件,以及導致了怎樣的信念變化。
范麗鳳說,她的工作正是這樣由低到高地使用圖結構去解析社交視頻。在實驗中,范麗鳳提出的模型獲得了比其他方法更好的信念動態變化預測表現。
在社交互動視頻的總結摘要上表現較好
當前的視頻總結摘要大多基于比較表面的模式識別來提取視頻關鍵幀,這樣的方法在一些簡單的視頻中比較奏效,比如一個人坐下、站起來、走路,當前的做法可以區分不同的動作,從而提出比較好的視頻總結。
但是一旦涉及到有更加豐富復雜的社會交互視頻時,當前的做法可能就不如五心模型表現好。
因為,在這樣的視頻中基于人物的心智變化比基于底層的特征變化能更加準確地捕捉、概括到故事的語義精髓。 比如在一段豐富的社會交互視頻中,人物可能有很多動作,但那不是這個故事的最關鍵的內容,如果按照這些底層特征來提取關鍵幀,結果可能是冗余且不關鍵的。
相較于底層的特征變化,人物在這個過程中心智發生了變化的那些時刻才是語義更豐富更核心的內容,基于這些提出的關鍵幀自然能更好地傳達這個視頻故事的本質。
范麗鳳的工作給出了定性比較實驗和人類評價實驗,結果均證明了五心模型在豐富社會交互視頻摘要任務上的優勢。
當機器看見你、理解你
范麗鳳告訴 DeepTech,人工智能真的要發展,肯定要做更難的任務。當前的人臉識別等底層任務并不能滿足我們對于視頻的深度理解的要求。
除了識別一個人是誰,科學家們還想讓機器學會識別視頻中人物的心智想法。
比如,以經典暑期劇《西游記》為例,正常人類看到孫悟空的表情再結合劇情,瞬間就能判斷他看到了什么、在想什么、以及預測出他接下來要做什么。
雖然人類觀眾可以瞬間就能挖掘到這些隱含的信息,但如果讓此前的計算機視覺模型來做,結果大概還只是相當于人類的嬰兒階段。所以要實現更高水平的通用人工智能,仍然是任重而道遠。
在應用方面,“五心” 模型除了能幫助機器更深地理解視頻,還可以提出更準確的視頻摘要。比如在處理海量視頻時,可把其精簡成幾幀總結,這樣用戶只需觀看濃縮視頻,就能基本了解全部視頻信息,從而節省更多時間。
此外,“五心” 模型還有一些其它潛在的應用,比如給視頻生成更好的文字描述解說,幫助用戶快速掌握視頻內容等等。
今年27歲的范麗鳳談及未來即將到北京和朱松純老師一起工作,她表示十分期待,北京是一個充滿魅力的城市,她非常希望能夠這里投身到中國這一波人工智能發展浪潮之中,開創出屬于自己的事業!
原文標題:90海歸女生CVPR論文幾近滿分,可讓機器識別視頻人物的心智想法,即將追隨導師朱松純回國發展 | 專訪
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
計算機
+關注
關注
19文章
7660瀏覽量
90745 -
AI
+關注
關注
88文章
35093瀏覽量
279476 -
人工智能
+關注
關注
1806文章
49007瀏覽量
249275
原文標題:90海歸女生CVPR論文幾近滿分,可讓機器識別視頻人物的心智想法,即將追隨導師朱松純回國發展 | 專訪
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
云知聲黃偉榮膺2024年度感動海淀文明人物
edge瀏覽器識別 latex語法插件
開關電源設計指南(完整版)
現代(Hyundai)機器人物聯網平臺可以實現什么功能
新鳳鳴榮登國家“卓越級智能工廠”首批名單
中微公司董事長尹志堯博士榮膺2024年度中國經濟新聞人物
阿里媽媽“淘寶星辰·圖生視頻”商用上線
可靈AI全球首發視頻模型定制功能,助力AI視頻創作
70多位博士生相聚浙江臺州,只為這行業傳感技術創新
京微齊力受邀參加2024年清華大學工程博士論壇
RISC-V AI技術正式納入北京大學研究生課程

評論