女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

研發全新多模態感知AI框架 AI能同時模擬人眼和手預測物體運動

工程師鄧生 ? 來源:VentureBeat ? 作者:VentureBeat ? 2021-02-12 09:12 ? 次閱讀

據外媒VentureBeat報道,來自三星、麥吉爾大學和約克大學的研究人員,近日研發出一個全新的生成式多模態感知AI框架,能夠根據物體初始狀態的視覺和觸覺數據,來預測出物體的運動趨勢。

據悉,這是第一個利用視覺和觸覺感知來學習多模態動力學模型的研究。

運動預測是自動化領域的一大關鍵技術,通過預判物體和環境的交互方式,自動化系統得以作出更加智能的決策。該團隊的這項研究,似乎又將這一技術的應用向前推進了一步。

這篇論文名為《基于多模態的生成模型指導的直觀物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已發表于arXiv平臺。

論文鏈接:

https://arxiv.org/pdf/2101.04454.pdf

一、運動預測有挑戰:摩擦力、壓力難確定

假如你要接住一個掉落的物體,你會迅速判斷它的運動走向,然后準確接住它。

但對于一個機器人來說,要準確預測出物體還未發生的運動趨勢,可不是一件容易的事。

近期,不少運動預測方面的AI研究,都指出了觸覺和視覺之間的協同作用。

其中,觸覺數據可以反映物體和環境間的作用力、由此產生的物體運動和環境接觸等關鍵信息,提供一種展現物體與環境交互過程的整體視角;視覺數據則可以直觀反映了立體形狀、位置等物體屬性。

在本文研究人員看來,視覺、觸覺信號的組合,或有助于推測出物體運動后的最終穩定狀態。

研究人員在論文寫道:“先前的研究表明,由于摩擦力、幾何特性、壓力分布存在不確定性,預測運動對象的軌跡具有挑戰性。”

比如推一個瓶子,如何準確預測這個動作的結果,接下來這個瓶子是會向前移動,還是會翻倒?

▲《基于多模態的生成模型指導的直觀物理研究(Learning Intuitive Physics with Multimodal Generative Models)》論文插圖

為了減少這種不確定性,研究團隊設計并實現了一個由軟硬件組成的高質量AI感知系統,經訓練后,該系統能捕獲到運動軌跡中最關鍵、最穩定的元素,從而準確測量和預測物體落在表面上的最終靜止狀態。

二、開發新型視覺觸覺傳感器,打造多模態感知系統

動態預測常被表述為一個高分辨率的時間問題,但在此項研究中,研究人員關注的是物體運動后的最終結果,而不是預測細粒度的物體運動軌跡。

研究人員認為,關注未來關鍵時間的結果,有助于大大提高模型預測的準確度和可靠性。

該研究團隊開發了一款名為“透視肌膚(STS,See-Through-Your-Skin)”的新型視覺-觸覺多模態傳感器,可以同時捕捉物體的視覺和觸覺特征數據,并重建在1640×1232的高分辨率圖像中。

由于光學觸覺傳感器通常使用不透明和反光的涂料涂層,研究人員開發了一種具有可控透明度的薄膜,使得傳感器能同時采集關于物理交互的觸覺信息和傳感器外部世界的視覺信息。

具體而言,研究人員通過改變STS傳感器的內部照明條件,來控制傳感器的觸覺和視覺測量的占空比,從而設置了反光涂料層的透明度。

如上圖左上角所示,利用內部照明可將傳感器表面變成透明,從而使得傳感器內置攝像頭能直接采集傳感器外部世界的圖像;上圖的左下角顯示,傳感器也可以保持內外一致的亮度,通過感知膜形變來采集物理交互觸覺信息。

借助STS傳感器和PyBullet模擬器,研究人員在動態場景中快速生成大量物體交互的視覺觸覺數據集,用于驗證其感知系統的性能。

受多模態變分自編碼器(MVAE)啟發,研究團隊設計了一個生成式多模態感知系統,在一個統一的MVAE框架內集成了視覺、觸覺和3D Pose反饋。

MVAE可以解讀STS傳感器采集的視覺、觸覺數據,將所有模態的物體關鍵信息映射到一個共享的嵌入空間,用于推斷物體在運動后最終的穩定狀態。

實驗結果表明,MVAE架構可以被訓練用于預測多模態運動軌跡中最穩定和信息最豐富的元素。

三、不懼單一模態信息缺失,準確預測物體未來狀態

該研究團隊生成的視覺觸覺數據庫主要包含三種動態模擬場景,分別是物體在平面上自由落體、物體在斜面上下滑、物體在靜止狀態下收到外力擾動。

下圖顯示了模擬三種動態場景的示例集,頂部一行顯示3D Pose視圖,中間一行、底部一行分別顯示STS傳感器采集的視覺和觸覺結果。

bf4c4d28780e42c1bb1fa5e5e9bb9665.png

研究人員在三種模擬動態場景和使用STS傳感器的真實實驗場景中,分別驗證了其動力學模型的預測能力。

如下方圖表顯示,在三種模擬場景中的固定步和最終步預測中,相比僅依賴視覺(VAE-visual only)或僅依賴觸覺(VAE-tactile only)的單模態感知模型,多模態感知模型(MVAE)在驗證集中的二進制交叉熵誤差(BCE)均值更小,即預測結果的準確性更高。

a8d1bf13e33c4f2d8ab42254125e4be3.png

研究人員還用基于高時間分辨率的模型進行對比實驗,發現這一模型在預測物體最終靜止狀態時,準確性要高于動態模型。這是由于不確定性和錯誤會隨著時間前向傳播,導致模糊和不精確的預測。

結果表明,在對中間狀態不感興趣的動態場景中,該AI框架能以更高的準確度來預測最終結果,而無需明確推理中間步驟。

此外,由于該研究方法破譯了觸覺、視覺、物體姿態之間的映射關系,因此即便某一模態信息缺失,比如缺乏觸覺信息時,該框架仍然可以從視覺信息推測出視覺信息,從而預測物體運動后的最終落點。

135dbc0e477d4786b31a1c0ce71f9121.png

結語:制造業自動化將是運動預測的一大應用場景

該研究團隊的這項新成果能夠基于觸覺、視覺的雙模態數據對物體的運動軌跡進行預判,并推測出物體的最終靜止狀態。

相較于以往的運動預測技術,該研究團隊實現了觸覺和視覺數據的雙向推測,為制造業的自動化場景提供了更多的可能性。

比如,揀貨機器人能夠更準確地判斷貨物的運動狀態,從而提高拾取精度;貨架機器人能夠提前預判貨物的運動軌跡,從而防止貨物跌落破損,減少損失。

不過,這項成果能夠預測的運動狀態還相對有限,我們期待研究團隊對復雜的運動模式、多樣的物體形態進行更多的模擬和技術攻關。

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    34197

    瀏覽量

    275346
  • 自動化
    +關注

    關注

    29

    文章

    5742

    瀏覽量

    81619
  • 智能感知
    +關注

    關注

    2

    文章

    102

    瀏覽量

    17995
  • 運動物體
    +關注

    關注

    0

    文章

    4

    瀏覽量

    6772
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    XMOS為普及AI應用推出基于軟件定義SoC的模態AI傳感器融合接口

    模態傳感信號AI處理為智算中心和邊緣智能開啟感知智能的新篇章
    的頭像 發表于 05-12 17:51 ?137次閱讀
    XMOS為普及<b class='flag-5'>AI</b>應用推出基于軟件定義SoC的<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>AI</b>傳感器融合接口

    設備預測性維護進入2.0時代:模態AI如何突破誤報困局

    三號生產線傳感器報警頻發,模態 AI 技術為解決難題提供新思路。工廠升級數據層、決策層、應用層,實現故障預測,系統上線后立即顯現強大能力,解決設備問題。
    的頭像 發表于 04-22 09:24 ?218次閱讀
    設備<b class='flag-5'>預測</b>性維護進入2.0時代:<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>AI</b>如何突破誤報困局

    海康威視發布模態大模型AI融合巡檢超腦

    基于海康觀瀾大模型技術體系,海康威視推出新一代模態大模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業帶來全新
    的頭像 發表于 04-17 17:12 ?576次閱讀

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    的自有模型移植,使首字詞生態速度比云端方案提升70%,賦絕影模態智能座艙強大的端側運行能力,讓汽車擁有“有趣的靈魂”。 不僅如此,天璣AI開發套件已經接入NVIDIA TAO生態
    發表于 04-13 19:52

    安霸在ISC West上推出下一代前端模態AI技術

    近日,Ambarella (下稱“安霸”,納斯達克股票代碼:AMBA, AI 視覺感知芯片公司)在美國拉斯維加斯西部安防展(ISC West)上宣布,將持續推動前端模態
    的頭像 發表于 04-03 09:57 ?277次閱讀

    采用可更新且具區分度錨點的模態運動預測研究

    在自動駕駛領域,運動預測 (Motion Prediction) 是一個重要任務,它有助于場景理解和安全決策。該任務利用歷史狀態和道路地圖來預測目標智能體的未來軌跡。其主要挑戰來自未來行為的
    的頭像 發表于 04-01 10:32 ?269次閱讀
    采用可更新且具區分度錨點的<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>運動</b><b class='flag-5'>預測</b>研究

    ?模態交互技術解析

    。它的核心目標是模擬人感官協同的溝通方式,提供更高效、靈活和人性化的人機交互體驗。 核心特點 通道融合 :整合多種輸入/輸出方式(如語音+手勢+視覺)。 自然交互 :模仿人類
    的頭像 發表于 03-17 15:12 ?1515次閱讀

    AI Agent 應用與項目實戰》閱讀心得2——客服機器人、AutoGen框架 、生成式代理

    ,斯坦福小鎮是一個非常有有意思的項目。生成式智能體作為AI領域的革命性突破,向我們揭示了計算機模擬人類行為的無限可能。憑借其創新的技術架構與精密的算法設計,這些智能體能夠在虛擬環境中栩栩如生地生活與交互
    發表于 02-25 21:59

    AI Agent 應用與項目實戰》第1-2章閱讀心得——理解Agent框架與Coze平臺的應用

    學習了解,再總結概括將呈現出以下幾個特點: 認知智能躍升:從被動執行到主動思考,Agent將具備推理規劃、自主決策能力。它不再是簡單的工具,而是理解上下文、洞察意圖的智能伙伴。 模態融合:打破單一
    發表于 02-19 16:35

    AI邊緣網關:開啟智能時代的新藍海

    ,準確率達到99.9%。 這一技術革新正在創造巨大的商業價值。在智慧城市領域,AI邊緣網關可以實現交通流量實時分析、違章行為智能識別;在工業互聯網中,能夠實現設備預測性維護、生產工藝優化;在智慧能源領域
    發表于 02-15 11:41

    字節跳動發布OmniHuman 模態框架

    2 月 6 日消息,字節跳動近日發布了一項重大成果 ——OmniHuman 模態框架,其優勢在于其強大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結合一段輸入音頻,就能生成
    的頭像 發表于 02-07 17:50 ?702次閱讀

    超越人類視覺!昱感微“多維像素”模態超級攝像頭方案產品賦超凡感知

    視覺——人只能感知所見目標大概的距離/位置/速度以及外觀信息,并且受到天氣、光線等因素影響較大;昱感微“多維像素”模態感知方案的超級攝像
    的頭像 發表于 12-12 17:17 ?693次閱讀
    超越人類視覺!昱感微“多維像素”<b class='flag-5'>多</b><b class='flag-5'>模態</b>超級攝像頭方案產品賦<b class='flag-5'>能</b>超凡<b class='flag-5'>感知</b>力

    蘋果發布300億參數模態AI大模型MM1.5

    蘋果近日推出了全新模態AI大模型MM1.5,該模型擁有高達300億的參數規模,是在前代MM1架構的基礎上進一步發展而來的。
    的頭像 發表于 10-14 15:50 ?534次閱讀

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    研究的進程。從蛋白質結構預測到基因測序與編輯,再到藥物研發,人工智能技術在生命科學的各個層面都發揮著重要作用。特別是像AlphaFold這樣的工具,成功解決了困擾生物學界半個世紀的蛋白質折疊問題,將
    發表于 10-14 09:21

    智譜AI發布全新模態開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態能力,再次刷新了業界對于大型語言模型的認識。
    的頭像 發表于 06-07 09:17 ?1071次閱讀