具身智能是一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息理解問題、做出決策 并實現(xiàn)行動,從而產生智能行為和適應性。具體而言,具身智能在機器人上的應用體現(xiàn)可以劃分為三階段:感知、推 理、執(zhí)行。
具身智能是機器人與人工智能發(fā)展的交匯點。機器人的通用性取決于泛化性的發(fā)展程度,自20世紀50年代以來,經過 多輪發(fā)展,機器人開始從傳統(tǒng)的自動化工業(yè)場景機器人,向通用泛化場景的機器人方向發(fā)展。而人工智能在幾十年發(fā) 展過后,在今天迎來了智能程度、通識程度更高的生成式大模型時代。在當前時間點,人工智能可以真正為機器人賦 予“大腦”,機器人也可為人工智能提供“身體”,兩者深度融合,而融合的交點——具身智能,則是人工智能與機 器人相互促進發(fā)展而形成的必然的產業(yè)趨勢。
目前具身大模型可以分為兩大流派,一類是端到端大模型,一類是分層具身大模型。1)端到端大模型:能夠直接實 現(xiàn)從人類指令到機械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動作。
2)分層具身大模型:不同層次模型協(xié)作, 上層大模型進行感知與決策,底層硬件層和中間響應快的小模型進行決策的分解與執(zhí)行。目前,由于受數據制約難以 達到性能要求,端到端大模型尚未成為主流選擇,更多廠商還是選擇以分層模型為機器人的具身智能。
訓練具身大模型的痛點:數據。機器人需要用海量數據進行訓練,使其變得更加智能。但機器人是非常新的領域,嚴 重缺乏訓練數據的積累。對應而言,目前主要的數據收集方法有四種:1)遠程操作,即由實驗人員操作機械手柄,遠 程控制機器人做出相同動作,以此來積累數據;2)AR,即通過AR環(huán)境對機器人進行訓練,積累數據;3)仿真,即 通過海量算力進行模擬運算,計算得出海量機器人訓練數據集;4)視頻學習,即通過多模態(tài)大模型,直接讓機器人通 過視頻學習人類動作,從而積累訓練數據。
人形機器人產業(yè)未來展望:從專用到通用,從ToB到ToC。短期來看,任務相對聚焦,對泛化能力要求不高工業(yè)制造 場景下的任務正在更快進入商業(yè)化階段。在工業(yè)制造場景實現(xiàn)商業(yè)化落地之后,海量機器人的具身數據疊加算力技術 的進步,機器人的能力將循序漸進逐步解鎖,并向商用服務、家庭服務等更開放的場景進行延伸,屆時市場有望達萬 億J。
![]() |
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 核酸采樣機器人 智能配送機器人 導覽機器人 |