女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是具身智能?它有什么用?

3D視覺工坊 ? 來源:Datawhale ? 2024-11-01 10:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:Datawhale,作者:鄭程睿

最近,具身智能的概念很火。

不論是這幾天稚暉君開源人形機(jī)器人全套圖紙+代碼,引發(fā)圈內(nèi)熱議。

還是各類具身智能產(chǎn)品,如李飛飛的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字節(jié)跳動的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act,均在不同任務(wù)和場景中展示了強(qiáng)大的能力,并有潛力帶來革命性的變革。

那什么是具身智能呢?它又有什么用?

一文帶你了解。

本文拆分為上下兩篇,明天會更新下篇,聚焦人機(jī)交互、發(fā)展討論。

本文部分參考中國信息通信研究院和北京人形機(jī)器人創(chuàng)新有限公司的《具身智能發(fā)展報告》

具身智能基本概念

具身智能,即“具身+智能”,是將機(jī)器學(xué)習(xí)算法適配至物理實體,從而與物理世界交互的人工智能范式。以 ChatGPT 為代表的“軟件智能體”(或稱“離身智能體”)使用大模型通過網(wǎng)頁端、手機(jī) APP 與用戶進(jìn)行交互,能夠接受語音、文字、圖片、視頻的多種模態(tài)的用戶指令,從而實現(xiàn)感知環(huán)境、規(guī)劃、記憶以及工具調(diào)用,執(zhí)行復(fù)雜的任務(wù)。在這些基礎(chǔ)之上,具身智能體則將大模型嵌入到物理實體上,通過機(jī)器配備的傳感器與人類交流,強(qiáng)調(diào)智能體與物理環(huán)境之間的交互。

通俗一點講,就是要給人工智能這個聰明的“頭腦”裝上一副“身體”。這個“身體”可以是一部手機(jī),可以是一臺自動駕駛汽車。

而人形機(jī)器人則是集各類核心尖端技術(shù)于一體的載體,是具身智能的代表產(chǎn)品。

具身智能的三要素:本體、智能、環(huán)境

具身智能的三要素:“本體”,即硬件載體;“智能”,即大模型、語音、圖像、控制、導(dǎo)航等算法;“環(huán)境”,即本體所交互的物理世界。本體、智能、環(huán)境的高度耦合才是高級智能的基礎(chǔ)。

不同環(huán)境下的會有不同形態(tài)的硬件本體以適應(yīng)環(huán)境。比如室內(nèi)平地更適用輪式機(jī)器人,崎嶇不平的地面更適用四足機(jī)器人(機(jī)器狗)。在具身智能體與環(huán)境的交互中,智能算法可以通過本體的傳感器以感知環(huán)境,做出決策以操控本體執(zhí)行動作任務(wù),從而影響環(huán)境。在智能算法與環(huán)境的交互中還可以通過“交互學(xué)習(xí)”和擬人化思維去學(xué)習(xí)和適應(yīng)環(huán)境,從而實現(xiàn)智能的增長。

wKgaoWckOv2ASLcuAABfBCFIc58446.jpg

具身智能的四個模塊:感知-決策-行動-反饋

一個具身智能體的行動可以分為“感知-決策-行動-反饋”四個步驟,分別由四個模塊完成,并形成一個閉環(huán)。

感知模塊

感知模塊負(fù)責(zé)收集和處理信息,通過多種傳感器感知和理解環(huán)境。在機(jī)器人上,常見的傳感器有:

可見光相機(jī):負(fù)責(zé)收集彩色圖像。

紅外相機(jī):負(fù)責(zé)收集熱成像、溫度測量、夜視和透視。紅外相機(jī)能夠檢測物體發(fā)出的熱輻射,即使在完全黑暗的環(huán)境中也能生成圖像。這種能力使得紅外相機(jī)適用于夜視和熱成像。紅外相機(jī)可以測量物體表面的溫度,廣泛應(yīng)用于設(shè)備過熱檢測、能源審計和醫(yī)學(xué)成像等領(lǐng)域。某些紅外相機(jī)能夠穿透煙霧、霧氣和其他遮擋物,適用于應(yīng)急救援和安全監(jiān)控。

深度相機(jī):負(fù)責(zé)測量圖像中每個點與相機(jī)之間的距離,獲取場景的三維坐標(biāo)信息。

激光雷達(dá)(LiDAR):負(fù)責(zé)測量目標(biāo)物體的距離和速度。通過發(fā)射激光脈沖并接收反射回來的光來計算與物體的距離,生成高精度的三維點云數(shù)據(jù),廣泛應(yīng)用于自動駕駛和機(jī)器人導(dǎo)航。

超聲波傳感器:負(fù)責(zé)避障。通過發(fā)射超聲波脈沖并接收這些脈沖的反射來確定機(jī)器人與障礙物之間的距離,判斷障礙物是否存在。

壓力傳感器:負(fù)責(zé)測量機(jī)器人手或腳部的壓力,用于行走和抓取力的控制以及避障。

麥克風(fēng):負(fù)責(zé)收音。

此外,根據(jù)不同應(yīng)用場景,還可以使用一些特定的傳感器實現(xiàn)特定功能。例如,電子鼻可以檢測氣體,應(yīng)用于防爆和環(huán)境監(jiān)測場景;濕度傳感器可以應(yīng)用于農(nóng)業(yè)機(jī)器人和室內(nèi)環(huán)境控制。環(huán)境理解在通過傳感器獲取環(huán)境信息后,機(jī)器人需要通過算法理解環(huán)境。在一些空間和場景相對穩(wěn)定可控的環(huán)境中,算法并不需要強(qiáng)泛化能力,因此只需要針對特定場景的模型。例如,可以使用YOLO進(jìn)行目標(biāo)檢測,使用SLAM實現(xiàn)導(dǎo)航和定位。而對于多變和陌生的場景,算法需要強(qiáng)泛化能力,因此需要使用多模態(tài)大模型,將聲音、圖像、視頻、定位等多種環(huán)境信息融合并進(jìn)行判斷。后續(xù)章節(jié)將詳細(xì)討論這一點。

決策模塊(大模型)

決策模塊是整個具身智能系統(tǒng)的核心,它負(fù)責(zé)接收來自感知模塊的環(huán)境信息,進(jìn)行任務(wù)規(guī)劃和推理分析,以指導(dǎo)行動模塊生成動作。在早期的技術(shù)發(fā)展中,決策模塊主要依賴于人工編程的規(guī)則判斷和專用任務(wù)的算法設(shè)計。然而,這些定制化的算法很難應(yīng)對動態(tài)變化的環(huán)境和未知情況。基于近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)和Q-learning算法的強(qiáng)化學(xué)習(xí)方法在具身智能自主導(dǎo)航、避障和多目標(biāo)收集等任務(wù)中展現(xiàn)出更好的決策靈活性。然而,這些方法在復(fù)雜環(huán)境的適應(yīng)能力、決策準(zhǔn)確度和效率方面仍存在局限。

大模型的涌現(xiàn),極大地增強(qiáng)了具身智能體的智能程度,大幅提高了環(huán)境感知、語音交互和任務(wù)決策的能力。相較于“軟件智能體”的AIGC(AI-generated Content),即由大模型生成文字、圖片等內(nèi)容,調(diào)用的工具是函數(shù);具身智能體的大模型是AIGA(AI-generated Actions),即由大模型生成動作,調(diào)用的工具是機(jī)械臂、相機(jī)等身體部件。在多模態(tài)的視覺語言模型(Vision Language Model, VLM)的基礎(chǔ)上,具身智能的大模型的發(fā)展方向是視覺語言動作模型(Vision Language Action Model, VLA)和視覺語言導(dǎo)航模型(Vision Language Navigation Model, VLN)。

VLA:輸入是語言、圖像或視頻流,輸出是語言和動作。在一個統(tǒng)一的框架內(nèi)融合了互聯(lián)網(wǎng)、物理世界以及運(yùn)動信息,從而實現(xiàn)了從自然語言指令到可執(zhí)行動作指令的直接轉(zhuǎn)換。

VLN:輸入是語言、圖像或視頻流,輸出是語言和移動軌跡。針對導(dǎo)航任務(wù)中的語言描述、視覺觀測對象以及運(yùn)動軌跡等多個階段的任務(wù)需求,VLN用于統(tǒng)一的指令輸入框架,使得大模型可以直接生成運(yùn)動方向、目標(biāo)物體位置等操作信息。

近年來,諸如VoxPoser、RT-2和Palme等初期的VLA模型,以及NaviLLM這樣的VLN模型已展示出令人期待的能力。在面向未來的發(fā)展中,多模態(tài)大模型與世界模型(World Model)的結(jié)合可以實現(xiàn)感知預(yù)測,即模擬環(huán)境中的動態(tài)變化。3D-VLA在此基礎(chǔ)上進(jìn)一步整合了三維世界模型的模態(tài),能夠預(yù)演環(huán)境動態(tài)變化及其對行動結(jié)果的影響。隨著多模態(tài)處理技術(shù)的發(fā)展,具身智能系統(tǒng)將能夠融合語言、視覺、聽覺、觸覺等多種感官信息,從而更自動化地理解指令并增強(qiáng)任務(wù)泛化能力。也許在具身智能大模型發(fā)展的最終階段,一個具備感知-決策-執(zhí)行的端到端大模型將孕育而生。它如同融合了人類的大腦和小腦,將原本不同模塊的功能融合至一個統(tǒng)一的框架下,能夠直接推理語言回復(fù)、精細(xì)動作、自主導(dǎo)航、工具使用以及與人協(xié)同合作,從而實現(xiàn)低延時和強(qiáng)泛化。

行動模塊

行動模塊是具身智能系統(tǒng)中的“執(zhí)行單元”,負(fù)責(zé)接收來自決策模塊的指令,并執(zhí)行具體的動作。行動模塊的主要任務(wù)包括使用導(dǎo)航定位算法實現(xiàn)移動,以及使用控制算法操縱機(jī)械臂等身體元件實現(xiàn)物體操作。例如,導(dǎo)航任務(wù)需要智能體通過移動來尋找目標(biāo)位置,而物體操作和交互則涉及對環(huán)境中物體的抓取、移動和釋放等動作。在行動模塊中,實現(xiàn)精細(xì)的動作控制是一個重要的挑戰(zhàn)。行動模塊如何響應(yīng)決策模塊的指令并生成動作,具體實現(xiàn)可以分為以下三種方式:

決策模塊(大模型)調(diào)用預(yù)編動作算法:

導(dǎo)航定位算法通過在事先建好的地圖和點位上實現(xiàn)移動。

機(jī)械臂等身體元件通過預(yù)編好的控制算法執(zhí)行特定動作。

這種方式的優(yōu)點在于動作的可控性強(qiáng)。在與真實物理世界交互的過程中,動作生成的容錯率低,由模型推理的動作一旦出錯可能會造成巨大損失。這種方式的缺點在于算法開發(fā)量大,且泛化能力弱,難以將動作遷移至新環(huán)境中。

決策模塊(大模型)與動作算法協(xié)同工作:使用視覺語言模型(VL)讀取行動模塊的實時視頻流,從而指導(dǎo)導(dǎo)航與控制算法生成動作。例如:

在執(zhí)行導(dǎo)航任務(wù)時,將Rviz顯示的地圖視頻流與相機(jī)捕捉的實時視頻流輸入至VL中,結(jié)合用戶語言指令,指導(dǎo)導(dǎo)航系統(tǒng)移動。

在執(zhí)行物體操作任務(wù)時,將機(jī)械臂上的相機(jī)的實時視頻流輸入至VL中,結(jié)合用戶語言指令,指導(dǎo)控制算法操作機(jī)械臂完成精準(zhǔn)抓取等任務(wù)。

這種方式使得機(jī)器人能夠在與環(huán)境的交互中不斷輸入新的環(huán)境信息,以不斷優(yōu)化決策和行動,增強(qiáng)行動的泛化性。然而,這種方式對數(shù)據(jù)吞吐量和算力是一個挑戰(zhàn)。

決策模塊(大模型)與行動模塊的融合:如上所述,未來的發(fā)展方向?qū)⑹鞘褂肰LA(Vision Language Action Model)和VLN(Vision Language Navigation Model)這樣的端到端具身智能大模型直接推理動作。這種模型將互聯(lián)網(wǎng)知識、物理世界概念與運(yùn)動信息融合到統(tǒng)一框架中,能夠直接依據(jù)自然語言描述生成可執(zhí)行的動作指令,傳入執(zhí)行器中。這種方式將決策、行動甚至是感知逐漸融合,使行動模塊的能力和靈活性進(jìn)一步提高,從而使具身智能系統(tǒng)在各種應(yīng)用場景中發(fā)揮更大的作用。

以上三種方式從上到下,隨著技術(shù)的不斷進(jìn)步,將決策、行動甚至是感知逐漸融合,使行動模塊的能力和靈活性不斷提高,從而使具身智能系統(tǒng)在各種應(yīng)用場景中發(fā)揮更大的作用。

反饋模塊

反饋模塊通過多層交互不斷接收來自環(huán)境的反饋經(jīng)驗并進(jìn)行調(diào)整和優(yōu)化。具體來說,反饋模塊分別反饋上述的感知、決策、行動模塊。以提高對環(huán)境的適應(yīng)性和智能化水平。

wKgaoWckOv6AAz8iAABJiknW8-8783.jpg

1. 反饋感知模塊:反饋模塊通過提供持續(xù)的反饋,增強(qiáng)了感知模塊對實時環(huán)境數(shù)據(jù)的敏感度。這包括但不限于圖像、聲音、壓力和觸感等多模態(tài)數(shù)據(jù),使得感知模塊能夠更加精準(zhǔn)地捕捉和響應(yīng)環(huán)境變化。

反饋模塊將感知模塊先前捕獲的環(huán)境信息視為“經(jīng)驗”或“記憶”,并將這些信息作為“提醒”重新輸入到感知模塊中。例如,在人機(jī)對話的場景中,如果感知模塊識別到一個新用戶,即一個尚未建立用戶習(xí)慣檔案的個體,或者是一個已經(jīng)存在于記憶中的老用戶,即一個已經(jīng)擁有熟悉操作流程的用戶,反饋模塊會將這些識別信息反饋給感知模塊。這一過程模擬了人類在遇到陌生人或熟人時的自然反應(yīng),從而使得感知模塊能夠根據(jù)用戶的不同身份和歷史交互數(shù)據(jù),調(diào)整其感知和響應(yīng)策略,以提供更加個性化和適應(yīng)性的服務(wù)。

2. 反饋決策模塊:反饋模塊通過提供持續(xù)的任務(wù)完成度、用戶指令的反饋。決策模塊利用這些反饋進(jìn)行自我優(yōu)化,調(diào)整其算法的參數(shù)。通過這種閉環(huán)反饋機(jī)制,決策模塊能夠不斷學(xué)習(xí)和適應(yīng),提高對環(huán)境的適應(yīng)性和智能化水平。

例如,在自動駕駛的決策規(guī)劃控制技術(shù)中,反饋模塊的作用是對感知到的周邊物體的預(yù)測軌跡的基礎(chǔ)上,結(jié)合無人車的路由意圖和當(dāng)前位置,對車輛做出最合理的決策和控制。

3. 反饋行動模塊:反饋模塊通過感知模塊獲取環(huán)境變化信息,并將這些信息反饋給決策模塊。決策模塊根據(jù)反饋信息靈活調(diào)整動作,確保執(zhí)行器在多變的環(huán)境中能夠調(diào)整運(yùn)動軌跡、力量輸出和動作順序。例如,機(jī)器人的超聲避障功能能夠在遇到突然出現(xiàn)的障礙物或前方行人時立即停止運(yùn)動,避免碰撞。導(dǎo)航系統(tǒng)在規(guī)劃自由路徑時,遇到突發(fā)的障礙物和人群時能夠立即重新規(guī)劃路徑并繞行。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49008

    瀏覽量

    249321
  • 人形機(jī)器人
    +關(guān)注

    關(guān)注

    7

    文章

    736

    瀏覽量

    17618
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    142

    瀏覽量

    470

原文標(biāo)題:一篇具身智能的最新全面綜述?。ㄉ希?/p>

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    英特爾? 智能大小腦融合方案發(fā)布:構(gòu)建智能落地新范式

    ?在今日舉辦的2025英特爾智能解決方案推介會上,英特爾正式發(fā)布其智能大小腦融合方案(下
    發(fā)表于 04-18 17:26 ?740次閱讀
    英特爾? <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>大小腦融合方案發(fā)布:構(gòu)建<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>落地新范式

    智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之智能機(jī)器人系統(tǒng)背景知識與基礎(chǔ)模塊

    意味著在“智能”領(lǐng)域,還沒有哪一個玩家能像O社那樣能站在AGI的制高點。 智能從字面上拆
    發(fā)表于 12-19 22:26

    【「智能機(jī)器人系統(tǒng)」閱讀體驗】+初品的體驗

    智能機(jī)器人系統(tǒng)》 一書由甘一鳴、俞波、萬梓燊、劉少山老師共同編寫,其封面如圖1所示。 本書共由5部分組成,其結(jié)構(gòu)和內(nèi)容如圖2所示。 該書可作為高校和科研機(jī)構(gòu)的教材,為學(xué)生和研究人員提供系統(tǒng)
    發(fā)表于 12-20 19:17

    【「智能機(jī)器人系統(tǒng)」閱讀體驗】1.初步理解智能

    感謝 感謝電子發(fā)燒友網(wǎng)社區(qū)給予《智能機(jī)器人系統(tǒng)》試讀機(jī)會。在這知識的盛宴中,我感受到社區(qū)的關(guān)懷與支持。定不負(fù)期望,認(rèn)真研讀,分享所學(xué),回饋社區(qū)。 一、本書大綱 《
    發(fā)表于 12-28 21:12

    【「智能機(jī)器人系統(tǒng)」閱讀體驗】2.智能機(jī)器人的基礎(chǔ)模塊

    智能機(jī)器人的基礎(chǔ)模塊,這個是本書的第二部分內(nèi)容,主要分為四個部分:機(jī)器人計算系統(tǒng),自主機(jī)器人的感知系統(tǒng),自主機(jī)器人的定位系統(tǒng),自主機(jī)器人的規(guī)劃與控制系統(tǒng)。這些基礎(chǔ)模塊在自主機(jī)器人系統(tǒng)中占據(jù)了
    發(fā)表于 01-04 19:22

    廣和通榮登36氪智能創(chuàng)新應(yīng)用案例及2024年智能產(chǎn)業(yè)發(fā)展研究報告

    面向智能應(yīng)用行業(yè)趨勢,36氪重磅啟動「AI Partner·2024智能創(chuàng)新應(yīng)用案例」征
    的頭像 發(fā)表于 10-10 10:51 ?603次閱讀
    廣和通榮登36氪<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>創(chuàng)新應(yīng)用案例及2024年<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>產(chǎn)業(yè)發(fā)展研究報告

    廣和通榮登36氪智能創(chuàng)新應(yīng)用案例及《2024年智能產(chǎn)業(yè)發(fā)展研究報告》

    面向智能應(yīng)用行業(yè)趨勢,36氪重磅啟動「AI Partner·2024智能創(chuàng)新應(yīng)用案例」征
    的頭像 發(fā)表于 10-10 10:52 ?1455次閱讀
    廣和通榮登36氪<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>創(chuàng)新應(yīng)用案例及《2024年<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>產(chǎn)業(yè)發(fā)展研究報告》

    智能在機(jī)器人技術(shù)中的發(fā)展

    智能(Embodied Intelligence)在機(jī)器人技術(shù)中的發(fā)展是人工智能領(lǐng)域的一個重要趨勢。以下是對
    的頭像 發(fā)表于 10-27 09:48 ?1968次閱讀

    智能的核心概念解析

    1. 性(Embodiment) 性是智能
    的頭像 發(fā)表于 10-27 09:52 ?1757次閱讀

    智能的未來發(fā)展趨勢

    智能(Embodied Intelligence)是指將智能系統(tǒng)與物理身體相結(jié)合,使系統(tǒng)能夠通過身體與環(huán)境互動,從而獲得感知、移動和操作的能力。這種
    的頭像 發(fā)表于 10-27 10:20 ?1253次閱讀

    智能在虛擬現(xiàn)實中的應(yīng)用實例

    隨著人工智能技術(shù)的飛速發(fā)展,虛擬現(xiàn)實(VR)技術(shù)也在不斷進(jìn)步,為人們提供了沉浸式的體驗。在這一領(lǐng)域,智能的概念逐漸成為研究的熱點。
    的頭像 發(fā)表于 10-27 10:25 ?1435次閱讀

    智能與機(jī)器學(xué)習(xí)的關(guān)系

    智能(Embodied Intelligence)和機(jī)器學(xué)習(xí)(Machine Learning)是人工智能領(lǐng)域的兩個重要概念,它們之間存在著密切的關(guān)系。 1.
    的頭像 發(fā)表于 10-27 10:33 ?1047次閱讀

    什么是智能?自動駕駛是智能嗎?

    技術(shù)發(fā)展日新月異,越來越多新概念、新名詞、新說法被提出,就在最近,“智能”的概念在圈內(nèi)十分火熱,更有人將自動駕駛比作為
    的頭像 發(fā)表于 12-10 11:02 ?1133次閱讀

    激活智能創(chuàng)新加速度,九章云極DataCanvas公司領(lǐng)航CEAI 2025中國智能大會

    近日,CEAI2025中國智能大會在京圓滿舉辦。作為中國AI基礎(chǔ)設(shè)施領(lǐng)軍企業(yè),九章云極DataCanvas公司以“彈性算力+開發(fā)工具+智算云服務(wù)”的全棧技術(shù)布局驚艷亮相,直擊
    的頭像 發(fā)表于 04-02 14:59 ?575次閱讀
    激活<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>創(chuàng)新加速度,九章云極DataCanvas公司領(lǐng)航CEAI 2025中國<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>大會