本報(bào)告包含四個(gè)主要研究目標(biāo):具身感知、具身互動(dòng)、具身智能體、sim2real,同時(shí)覆蓋了當(dāng)前最佳方法、基本范式和全面的基準(zhǔn)數(shù)據(jù)集。此外文中還探討了虛擬和具身MLM的復(fù)雜性,強(qiáng)調(diào)了它們?cè)诖龠M(jìn)動(dòng)態(tài)數(shù)字和物理環(huán)境中的互動(dòng)的重要性。最后總結(jié)了具身智能的挑戰(zhàn)和局限性,及未來(lái)潛在的研究方向。
論文:https://arxiv.org/pdf/2407.06886
Github地址:
https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List
前言
Embodied AI最初由艾倫·圖靈在1950年提出“具身圖靈測(cè)試”,目的是測(cè)試智能體是否能夠在復(fù)雜和不可預(yù)測(cè)的物理世界中導(dǎo)航,而不僅僅是解決虛擬環(huán)境中的抽象問(wèn)題。與虛擬空間中的無(wú)具身AI相對(duì),物理空間中的智能體被稱(chēng)為具身智能。MLMs的最新進(jìn)展為具身智能注入了強(qiáng)大的感知、交互和規(guī)劃能力,使其能夠積極與虛擬和物理環(huán)境互動(dòng)。具身智能被認(rèn)為是MLMs的最佳載體,最近代表作是RT-2和RT-H。但MLMs在長(zhǎng)期記憶、理解復(fù)雜意圖和分解復(fù)雜任務(wù)的能力方面仍有限。
為了實(shí)現(xiàn)AGI,具身智能發(fā)展被視為一個(gè)基本途徑。與像ChatGPT這樣的對(duì)話agents智能體不同,具身智能認(rèn)為通過(guò)控制物物體并與模擬和物理環(huán)境互動(dòng),才能實(shí)現(xiàn)真正的AGI。智能體是具身智能的基礎(chǔ),必須理解語(yǔ)言指令、感知環(huán)境并執(zhí)行復(fù)雜任務(wù)。多模態(tài)模型的發(fā)展迅速,在復(fù)雜環(huán)境中表現(xiàn)出優(yōu)越的靈活性、技巧和泛化能力。先進(jìn)的視覺(jué)編碼器和大型語(yǔ)言模型(LLMs)使機(jī)器人更好地理解語(yǔ)言指令并感知復(fù)雜環(huán)境。下圖為基于MLM和WM的具身智能體框架。
智能體AI的發(fā)展引起了研究社區(qū)的顯著關(guān)注,并被認(rèn)為是實(shí)現(xiàn)AGI的可行途徑。盡管如此,研究社區(qū)仍缺乏一份全面的調(diào)查,幫助整理現(xiàn)有的智能體AI研究、面臨的挑戰(zhàn)以及未來(lái)的研究方向。盡管已有多篇綜述論文針對(duì)具身智能,但大多數(shù)論文已經(jīng)過(guò)時(shí),因?yàn)樗鼈兪窃?023年前發(fā)布的MLMs時(shí)代之前。2023年之后只有一篇綜述論文專(zhuān)注于視覺(jué)-語(yǔ)言-動(dòng)作具身智能模型,但MLMs、WMs和具身智能體并未得到充分考慮。
本研究提供了一個(gè)全面的綜述,涵蓋了具身智能的各個(gè)方面,上圖為綜述關(guān)于具身智能的整體框架,具體包括以下幾個(gè)部分:
具身機(jī)器人,具身智能在物理世界中的硬件方案;
具身仿真平臺(tái),高效且安全地訓(xùn)練具身智能體的數(shù)字空間;
具身感知,主動(dòng)感知 3D 空間并綜合多模態(tài)感知;
具身交互,有效合理地與環(huán)境進(jìn)行交互甚至改變環(huán)境以完成指定任務(wù);
具身智能體,利用多模態(tài)大模型理解抽象指令并將其拆分為一系列子任務(wù)再逐步完成;
Sim2Real,將數(shù)字空間中學(xué)習(xí)到的技能遷移泛化到物理世界中
具身機(jī)器人
具身機(jī)器人積極地與物理環(huán)境互動(dòng),涵蓋了從機(jī)器人到智能家電、智能眼鏡、自動(dòng)駕駛車(chē)輛等廣泛的具身形態(tài),而機(jī)器人也是最突出的具身形態(tài)之一。根據(jù)應(yīng)用的不同,機(jī)器人被設(shè)計(jì)成各種形式,以利用其硬件特性來(lái)完成特定的任務(wù)。
主要有以下類(lèi)別:
固定底座機(jī)器人如機(jī)械臂,由于其緊湊性和高精度操作,在實(shí)驗(yàn)室自動(dòng)化、教育培訓(xùn)和工業(yè)制造中得到了廣泛應(yīng)用。
輪式機(jī)器人,以其高效的機(jī)動(dòng)性而廣受歡迎,被廣泛應(yīng)用于物流、倉(cāng)儲(chǔ)和安保檢查中。
履帶式機(jī)器人,具有強(qiáng)大的越野能力和機(jī)動(dòng)性,在農(nóng)業(yè)、建筑和災(zāi)害恢復(fù)領(lǐng)域顯示出潛力。
四足機(jī)器人,因其穩(wěn)定性和適應(yīng)性而特別適合于復(fù)雜地形探索、救援任務(wù)和軍事應(yīng)用。
人形機(jī)器人,外部形態(tài)與人類(lèi)似,在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中廣泛應(yīng)用。
仿生學(xué)機(jī)器人,通過(guò)模擬自然生物的有效運(yùn)動(dòng)和功能,在復(fù)雜和動(dòng)態(tài)的環(huán)境中執(zhí)行任務(wù)。
仿真平臺(tái)
仿真平臺(tái)對(duì)于具身智能至關(guān)重要,因?yàn)樗鼈兲峁┝顺杀拘б娓叩膶?shí)驗(yàn)方式,確保了通過(guò)模擬潛在的危險(xiǎn)場(chǎng)景的安全性,為測(cè)試在各種環(huán)境中提供了可擴(kuò)展性,快速原型設(shè)計(jì)的能力,對(duì)更廣泛的研究社區(qū)的可訪問(wèn)性,精確研究的受控環(huán)境,用于訓(xùn)練和評(píng)估的數(shù)據(jù)生成,以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn)。
為了使智能體能夠與環(huán)境互動(dòng),有必要構(gòu)建一個(gè)現(xiàn)實(shí)的模擬環(huán)境。這需要考慮環(huán)境的物理特性,物體的屬性以及它們之間的相互作用。文中主要介紹兩種仿真平臺(tái),
通用仿真平臺(tái),提供了一個(gè)虛擬環(huán)境,它與物理世界緊密相似,允許進(jìn)行算法開(kāi)發(fā)和模型訓(xùn)練,這為AI技術(shù)的發(fā)展提供了顯著的成本、時(shí)間和安全優(yōu)勢(shì)。包含Isaac、Gazebo、Mujoco等
基于真實(shí)場(chǎng)景的仿真平臺(tái),大多應(yīng)用于嵌入式AI領(lǐng)域。收集真實(shí)世界的數(shù)據(jù),創(chuàng)建逼真的3D資產(chǎn),并使用3D游戲引擎,如UE5和Unity,構(gòu)建場(chǎng)景。
具身感知
未來(lái)的視覺(jué)感知“north stars”以具身為中心的視覺(jué)推理和社會(huì)智能。與僅僅識(shí)別圖像中的對(duì)象不同,具有具身感知的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng)。這需要對(duì)3D空間和動(dòng)態(tài)環(huán)境的更深層次理解。具身感知需要視覺(jué)感知和推理,理解場(chǎng)景中的3D關(guān)系,并根據(jù)視覺(jué)信息預(yù)測(cè)和執(zhí)行復(fù)雜的任務(wù)。
主要內(nèi)容如下:
主動(dòng)視覺(jué)感知,進(jìn)行狀態(tài)估計(jì)、場(chǎng)景感知和環(huán)境探索。包含
視覺(jué)定位和地圖構(gòu)建(SLAM)技術(shù),它在不了解環(huán)境的情況下確定移動(dòng)機(jī)器人的位置,同時(shí)構(gòu)建該環(huán)境的地圖
3D場(chǎng)景理解,3D場(chǎng)景理解旨在區(qū)分物體的語(yǔ)義,識(shí)別它們的位置,并從3D場(chǎng)景數(shù)據(jù)中推斷幾何屬性
主動(dòng)探索,在被動(dòng)感知的基礎(chǔ)上,由于機(jī)器人具有移動(dòng)能力和頻繁與周?chē)h(huán)境互動(dòng)的能力,它們也能夠主動(dòng)探索和感知其環(huán)
3D視覺(jué)定位(3DVG) ,任務(wù)涉及使用自然語(yǔ)言在3D中定位物體。包含
兩階段3DVG,分為物體檢測(cè)階段和語(yǔ)義理解后物體匹配階段
一階段3DVG,則是將上述兩階段合并
視覺(jué)語(yǔ)言導(dǎo)航(VLN),旨在使智能體能夠在未知的環(huán)境中遵循語(yǔ)言指令進(jìn)行導(dǎo)航。
觸覺(jué)傳感器,為智能體提供關(guān)于紋理、硬度以及溫度的詳細(xì)信息。
具身交互
具身交互指的是智能體在與人類(lèi)和環(huán)境在物理或模擬空間中交互的情景。典型任務(wù)包含:
具身問(wèn)答(EQA),智能體需要從第一人稱(chēng)視角探索環(huán)境以收集回答給定問(wèn)題所需的信息。具有自主探索和決策能力的智能體不僅需要考慮采取哪些行動(dòng)來(lái)探索環(huán)境,還需要確定何時(shí)停止探索以回答問(wèn)題。
具身抓取。除問(wèn)答互動(dòng)外,抓取指的是根據(jù)人類(lèi)指令執(zhí)行操作,如抓取和放置物體,從而完成機(jī)器人、人類(lèi)和物體之間的互動(dòng)。具身抓取需要全面的語(yǔ)義理解、場(chǎng)景感知、決策制定和穩(wěn)健的控制規(guī)劃。
具身智能體
具身智能體是指能夠感知其環(huán)境并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的自主物體。機(jī)器學(xué)習(xí)模型(MLM)的最新進(jìn)展進(jìn)一步擴(kuò)展了智能體的應(yīng)用范圍到實(shí)際場(chǎng)景中。當(dāng)這些基于MLM的智能體被賦予實(shí)際物體時(shí),它們可以將自己的能力有效地從虛擬空間轉(zhuǎn)移到物理世界,從而成為具身智能體。
為了使具身智能體能夠在信息豐富且復(fù)雜的現(xiàn)實(shí)世界中運(yùn)作,已經(jīng)開(kāi)發(fā)了具有強(qiáng)大多模態(tài)感知、交互和規(guī)劃能力的具身智能體如下圖所示。為了完成一個(gè)任務(wù),具身智能體通常涉及以下過(guò)程:
高層具身任務(wù)規(guī)劃,將抽象且復(fù)雜的任務(wù)分解為具體子任務(wù)。
低層具身動(dòng)作規(guī)劃,通過(guò)有效地利用具身感知和具身交互模型,或者利用基礎(chǔ)模型的策略功能,逐步實(shí)施這些子任務(wù),這被稱(chēng)為。
這里需要注意的是,任務(wù)規(guī)劃涉及在行動(dòng)之前思考,因此通常在網(wǎng)絡(luò)空間中考慮。相比之下,動(dòng)作規(guī)劃必須考慮到與環(huán)境的有效互動(dòng),并將此信息反饋給任務(wù)規(guī)劃者以調(diào)整任務(wù)規(guī)劃。因此,對(duì)于具身智能體來(lái)說(shuō),將能力從網(wǎng)絡(luò)空間轉(zhuǎn)移到物理世界是非常重要的。
主要內(nèi)容包括:
具身多模態(tài)模型,通過(guò)視覺(jué)識(shí)別其環(huán)境,通過(guò)聽(tīng)覺(jué)理解指令,并通過(guò)理解自身的狀態(tài)來(lái)促進(jìn)復(fù)雜交互和操作。這要求一個(gè)模型能夠整合多種感官模態(tài)和自然語(yǔ)言處理能力,通過(guò)綜合多種數(shù)據(jù)類(lèi)型來(lái)增強(qiáng)智能體的理解和決策能力。
具身任務(wù)規(guī)劃,任務(wù)動(dòng)作通常在模擬器中預(yù)先定義,或者在真實(shí)世界場(chǎng)景中使用預(yù)先訓(xùn)練的策略模型執(zhí)行。如一個(gè)任務(wù)“將蘋(píng)果放在盤(pán)子上”,任務(wù)規(guī)劃器將會(huì)將其分解為子任務(wù)“找到蘋(píng)果,拿起蘋(píng)果”,“找到盤(pán)子”,“放下蘋(píng)果”。由于如何找到(導(dǎo)航任務(wù))或拿起/放下動(dòng)作(抓取任務(wù))并不在任務(wù)規(guī)劃的范圍內(nèi)。
具身行動(dòng)規(guī)劃,行動(dòng)規(guī)劃必須應(yīng)對(duì)現(xiàn)實(shí)世界的不確定性,因?yàn)槿蝿?wù)規(guī)劃提供的子任務(wù)粒度不足以引導(dǎo)智能體在環(huán)境中的交互。一般來(lái)說(shuō),智能體可以通過(guò)兩種方式實(shí)現(xiàn)行動(dòng)規(guī)劃:
使用預(yù)訓(xùn)練的具身感知和具身交互模型作為工具,通過(guò)API逐步完成任務(wù)規(guī)劃指定的子任務(wù);
利用VLA模型的固有功能來(lái)推導(dǎo)行動(dòng)規(guī)劃。
Sim2Real
仿真到現(xiàn)實(shí)關(guān)注于如何將仿真環(huán)境中訓(xùn)練和測(cè)試得到的機(jī)器人或自動(dòng)化系統(tǒng)策略,有效地遷移到現(xiàn)實(shí)世界中去應(yīng)用。它涉及驗(yàn)證和改進(jìn)在模擬中開(kāi)發(fā)的算法、模型和控制策略的有效性,以確保它們?cè)谖锢憝h(huán)境中表現(xiàn)穩(wěn)健和可靠。
一般包含三部分內(nèi)容:
具身世界模型,(Sim-to-Real)涉及在模擬中創(chuàng)建與現(xiàn)實(shí)世界環(huán)境密切相似的世界模型,幫助算法在轉(zhuǎn)移時(shí)更好地進(jìn)行泛化。世界模型方法旨在構(gòu)建一個(gè)端到端的模型,該模型將視覺(jué)映射到動(dòng)作,甚至可以映射任何輸入到任何輸出,通過(guò)以生成或預(yù)測(cè)的方式預(yù)測(cè)下一個(gè)狀態(tài)來(lái)做出決策。注意與VLA模型的區(qū)別
數(shù)據(jù)搜集和訓(xùn)練,主要用于高質(zhì)量數(shù)據(jù)獲取,包含真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)
具身控制,通過(guò)與環(huán)境的交互學(xué)習(xí),并使用獎(jiǎng)勵(lì)機(jī)制優(yōu)化行為以獲得最佳策略,從而避免了傳統(tǒng)物理建模方法的缺點(diǎn)。包含DRL和模仿學(xué)習(xí)
挑戰(zhàn)和未來(lái)發(fā)展方向
盡管具身智能取得了迅速的進(jìn)步,但它面臨著若干挑戰(zhàn),并預(yù)示著激動(dòng)人心的未來(lái)發(fā)展方向。
高質(zhì)量的機(jī)器人數(shù)據(jù)集:獲取足夠數(shù)量的真實(shí)世界機(jī)器人數(shù)據(jù)仍然是一個(gè)重大挑戰(zhàn)。收集這些數(shù)據(jù)既耗時(shí)又耗資源。單純依賴(lài)模擬數(shù)據(jù)加劇了“模擬到現(xiàn)實(shí)”差距問(wèn)題。創(chuàng)建多樣化的真實(shí)世界機(jī)器人數(shù)據(jù)集需要各機(jī)構(gòu)之間密切且廣泛的合作。此外,開(kāi)發(fā)更真實(shí)、更高效的模擬器對(duì)于提高模擬數(shù)據(jù)的質(zhì)量至關(guān)重要。當(dāng)前的工作RT-1 使用了基于機(jī)器人圖像和自然語(yǔ)言命令的預(yù)訓(xùn)練模型。RT-1在導(dǎo)航和抓取任務(wù)中取得了良好的結(jié)果,但獲取真實(shí)世界機(jī)器人數(shù)據(jù)非常困難。為了構(gòu)建能夠在機(jī)器人跨場(chǎng)景和跨任務(wù)應(yīng)用中具有一般化能力的模型,構(gòu)建大規(guī)模的數(shù)據(jù)集至關(guān)重要,利用高質(zhì)量的模擬環(huán)境數(shù)據(jù)輔助真實(shí)世界的數(shù)據(jù)。
有效利用人類(lèi)示范數(shù)據(jù):有效利用人類(lèi)示教數(shù)據(jù)涉及利用人類(lèi)演示的動(dòng)作和行為來(lái)訓(xùn)練和改進(jìn)機(jī)器人系統(tǒng)。這一過(guò)程包括收集、處理和從大型、高質(zhì)量的數(shù)據(jù)集中學(xué)習(xí),其中人類(lèi)執(zhí)行機(jī)器人旨在學(xué)習(xí)的任務(wù)。當(dāng)前的工作R3M使用動(dòng)作標(biāo)簽和人類(lèi)示教數(shù)據(jù)來(lái)學(xué)習(xí)具有高成功率的泛化表征,但復(fù)雜任務(wù)的高效性仍然需要改進(jìn)。因此,有效地利用大量未結(jié)構(gòu)化、多標(biāo)簽和多模態(tài)的人類(lèi)示教數(shù)據(jù)以及動(dòng)作標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練具有各種任務(wù)學(xué)習(xí)能力的具身模型至關(guān)重要。通過(guò)有效利用人類(lèi)示教數(shù)據(jù),機(jī)器人系統(tǒng)可以在相對(duì)較短的時(shí)間內(nèi)實(shí)現(xiàn)更高的性能和適應(yīng)性,使它們能夠在動(dòng)態(tài)環(huán)境中更有效地執(zhí)行復(fù)雜任務(wù)。
復(fù)雜環(huán)境認(rèn)知:復(fù)雜環(huán)境認(rèn)知指的是物理或虛擬環(huán)境中具身智能體感知、理解和在復(fù)雜現(xiàn)實(shí)世界環(huán)境中導(dǎo)航的能力?;趶V泛常識(shí)知識(shí),Say-Can 利用預(yù)訓(xùn)練的LLM模型任務(wù)分解機(jī)制,該機(jī)制在為簡(jiǎn)單任務(wù)規(guī)劃時(shí)嚴(yán)重依賴(lài)大量常識(shí)知識(shí),但在復(fù)雜環(huán)境中缺乏對(duì)長(zhǎng)期任務(wù)的理解。對(duì)于無(wú)結(jié)構(gòu)的開(kāi)放環(huán)境,當(dāng)前的工作通常依賴(lài)于利用大量常識(shí)知識(shí)對(duì)預(yù)訓(xùn)練的LLM模型進(jìn)行任務(wù)分解,但對(duì)于具體場(chǎng)景的理解則缺乏。在復(fù)雜環(huán)境中增強(qiáng)知識(shí)轉(zhuǎn)移和概括能力至關(guān)重要。一個(gè)真正多功能的機(jī)器人系統(tǒng)應(yīng)該能夠理解和執(zhí)行跨多樣化和未見(jiàn)場(chǎng)景的自然語(yǔ)言指令。這需要開(kāi)發(fā)可適應(yīng)和可擴(kuò)展的具身智能體架構(gòu)。
長(zhǎng)期任務(wù)執(zhí)行:對(duì)于機(jī)器人來(lái)說(shuō),執(zhí)行單個(gè)指令往往涉及到長(zhǎng)期的任務(wù),例如命令“清潔廚房”,這涉及到活動(dòng)如重新排列物體、掃地、擦桌子等。成功完成這樣的任務(wù)需要機(jī)器人能夠規(guī)劃并執(zhí)行一系列低級(jí)動(dòng)作,持續(xù)時(shí)間較長(zhǎng)。盡管目前的高級(jí)任務(wù)規(guī)劃者已經(jīng)顯示出初步的成功,但它們?cè)诙鄻踊膱?chǎng)景中往往因?yàn)槿狈︶槍?duì)有形任務(wù)的調(diào)校而顯得不足。解決這一挑戰(zhàn)需要開(kāi)發(fā)高效的規(guī)劃者,配備有強(qiáng)大的感知能力和大量的常識(shí)知識(shí)。
因果關(guān)系發(fā)現(xiàn):現(xiàn)有基于數(shù)據(jù)驅(qū)動(dòng)的具身智能體決策是基于數(shù)據(jù)內(nèi)部的固有相關(guān)性。然而,這種建模方法并不允許模型真正理解知識(shí)、行為和環(huán)境之間的因果關(guān)系,導(dǎo)致策略存在偏見(jiàn)。這使得確保它們能夠在可解釋、健壯和可靠的方式下在真實(shí)世界環(huán)境中運(yùn)行變得困難。因此,對(duì)于具身智能體來(lái)說(shuō),被世界知識(shí)驅(qū)動(dòng),能夠進(jìn)行自主的因果推理是非常重要的。通過(guò)互動(dòng)了解世界并通過(guò)歸納推理學(xué)習(xí)其工作機(jī)制,我們可以進(jìn)一步增強(qiáng)在復(fù)雜真實(shí)世界環(huán)境中多模態(tài)具身智能體的適應(yīng)性、決策可靠性和泛化能力。對(duì)于具身任務(wù),通過(guò)交互式指令和狀態(tài)預(yù)測(cè)在模態(tài)之間建立空間-時(shí)間因果關(guān)系是必要的。此外,智能體需要理解物體的 affordances來(lái)實(shí)現(xiàn)適應(yīng)性任務(wù)規(guī)劃和動(dòng)態(tài)場(chǎng)景中的長(zhǎng)距離自主導(dǎo)航。為了優(yōu)化決策制定,有必要結(jié)合反事實(shí)和因果干預(yù)策略,從反事實(shí)和因果干預(yù)的角度追蹤因果關(guān)系,減少探索迭代并優(yōu)化決策。基于世界知識(shí)構(gòu)建因果圖,并通過(guò)主動(dòng)因果推理實(shí)現(xiàn)模擬到現(xiàn)實(shí)的智能體轉(zhuǎn)移,將形成一個(gè)統(tǒng)一的具身智能框架。
持續(xù)學(xué)習(xí):在機(jī)器人應(yīng)用中,持續(xù)學(xué)習(xí)[389]對(duì)于在多樣化的環(huán)境中部署機(jī)器人學(xué)習(xí)策略至關(guān)重要,但這一領(lǐng)域仍然是一個(gè)未被充分探索的領(lǐng)域。盡管一些最近的研究已經(jīng)考察了持續(xù)學(xué)習(xí)的一些子話題,如增量學(xué)習(xí)、快速運(yùn)動(dòng)適應(yīng)和人類(lèi)參與式學(xué)習(xí),但這些解決方案通常是為單一任務(wù)或平臺(tái)設(shè)計(jì)的,尚未考慮基礎(chǔ)模型。開(kāi)放的研究問(wèn)題和可行的方法包括:1) 在對(duì)最新數(shù)據(jù)進(jìn)行微調(diào)時(shí),混合不同比例的先驗(yàn)數(shù)據(jù)分布,以緩解災(zāi)難性遺忘;2) 開(kāi)發(fā)從先驗(yàn)分布或課程中獲取的效率更高的原型,以在新任務(wù)中進(jìn)行任務(wù)推斷;3) 提高在線學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性和樣本效率;4) 識(shí)別無(wú)縫將大型容量模型集成到控制框架中的原則方法,可能通過(guò)層次學(xué)習(xí)或慢-快控制,以實(shí)現(xiàn)實(shí)時(shí)推斷。
統(tǒng)一評(píng)估基準(zhǔn):盡管存在許多用于評(píng)估低級(jí)控制策略的基準(zhǔn),但這些基準(zhǔn)往往在評(píng)估的技能方面存在顯著差異。此外,這些基準(zhǔn)中包含的物體和場(chǎng)景通常受限于模擬器的限制。為了全面評(píng)具身智能模型,需要涵蓋廣泛技能并使用真實(shí)模擬器的基準(zhǔn)。至于高級(jí)任務(wù)規(guī)劃者,許多基準(zhǔn)側(cè)重于通過(guò)問(wèn)答任務(wù)評(píng)估規(guī)劃能力。然而,更理想的方法是評(píng)估高級(jí)任務(wù)規(guī)劃者和低級(jí)控制策略的組合,以執(zhí)行長(zhǎng)期任務(wù)并測(cè)量成功率,而不是僅依賴(lài)于對(duì)規(guī)劃者的孤立評(píng)估。這種集成方法提供了一個(gè)更全面的評(píng)估具身智能系統(tǒng)的能力。
總之具身智能使智能體能夠感知、認(rèn)知并與數(shù)字空間和物理世界中的各種物體互動(dòng),顯示了其在實(shí)現(xiàn)通用人工智能方面的重要意義。本綜述全面回顧了具身機(jī)器人、具身仿真平臺(tái)、具身感知、具身交互、具身智能體、虛擬到現(xiàn)實(shí)的機(jī)器人控制以及未來(lái)的研究方向,這對(duì)沿著促進(jìn)具身智能的發(fā)展具有重要意義。
聯(lián)系客服