
|
觸覺(jué)融入、硬件、模型等方面的挑戰(zhàn),制約著具身智能向通用智能演進(jìn) 文|《瞭望》新聞周刊記者 王鶴 龔雯 從央視春晚上宇樹(shù)機(jī)器人“扭秧歌”開(kāi)始,中國(guó)具身智能正以驚人速度成長(zhǎng),跑馬拉松、打拳擊、踢足球、跳街舞,還可以在汽車(chē)工廠(chǎng)“上崗”……每一個(gè)“驚人”的技能都在凸顯這個(gè)行業(yè)的發(fā)展新高度。 “這些花樣玩活的視頻放出來(lái),把大家的胃口吊起來(lái)了,容易讓人誤判形勢(shì),以為機(jī)器人已經(jīng)高度成熟,可以做很多高難度事情,就快上天入地、無(wú)所不能了。”一位工業(yè)機(jī)器人企業(yè)高管感嘆,我們需要透過(guò)“表面繁榮”,看到具身智能的實(shí)際能力。 細(xì)心的人會(huì)發(fā)現(xiàn),幾乎所有做高難度動(dòng)作的機(jī)器人身旁,都有一位人類(lèi)工程師在遙操,或者機(jī)器人提前植入了程序,也就是說(shuō),這些機(jī)器人還是“提線(xiàn)木偶”,需要人類(lèi)“把著手”做事。 具身智能何時(shí)才能擺脫遙控器,距離“全自主”還有多遠(yuǎn)? 大腦“進(jìn)化” 突破遙操的關(guān)鍵是要具備強(qiáng)大大腦,即機(jī)器能夠理解物理世界并與之交互,實(shí)現(xiàn)感知—決策—執(zhí)行—反饋的閉環(huán)。以自動(dòng)駕駛領(lǐng)域?yàn)槔?VLA大模型(視覺(jué)—語(yǔ)言—行動(dòng)模型)、端到端強(qiáng)化學(xué)習(xí)和世界模型是三類(lèi)核心技術(shù)要素,三者協(xié)同實(shí)現(xiàn)機(jī)器從感知環(huán)境到執(zhí)行動(dòng)作的自主智能。 VLA大模型融合視覺(jué)、語(yǔ)言和動(dòng)作三種模態(tài),用于讓機(jī)器人理解環(huán)境、接受指令并執(zhí)行物理動(dòng)作,是具身智能基礎(chǔ)模型。今年6月銀河通用發(fā)布了面向零售場(chǎng)景的大模型GroceryVLA,實(shí)現(xiàn)機(jī)器人對(duì)復(fù)雜環(huán)境的自主決策與精準(zhǔn)執(zhí)行,例如當(dāng)人類(lèi)發(fā)出“幫我拿點(diǎn)吃的”指令后,機(jī)器人無(wú)需遙操作,無(wú)事先采集場(chǎng)景數(shù)據(jù),通過(guò)自主規(guī)劃路徑,從貨架中識(shí)別并抓取餅干飲料送達(dá)。 端到端強(qiáng)化學(xué)習(xí)是能夠直接從圖像、傳感器數(shù)據(jù)等原始輸入到動(dòng)作輸出的強(qiáng)化學(xué)習(xí)系統(tǒng),中間不依賴(lài)路徑規(guī)劃器等模塊,是訓(xùn)練VLA大模型的關(guān)鍵方法。在2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)上,清華大學(xué)教授、機(jī)器人控制實(shí)驗(yàn)室主任趙明國(guó)帶領(lǐng)的機(jī)器人足球隊(duì)“清華火神隊(duì)”贏得足球賽冠軍。比賽中機(jī)器人已實(shí)現(xiàn)無(wú)遙操,能夠走、跑、跳、翻跟頭,具備在復(fù)雜、有障礙物路面上行走所需的平衡和適應(yīng)能力。趙明國(guó)團(tuán)隊(duì)的核心突破是采用端到端強(qiáng)化學(xué)習(xí)算法,直接將機(jī)器人的視覺(jué)信號(hào),如球的位置、隊(duì)友/對(duì)手的位置、球場(chǎng)邊界等映射到運(yùn)動(dòng)控制指令,實(shí)現(xiàn)機(jī)器人的行走方向、踢球力度、身體姿態(tài)調(diào)整。 世界大模型是模擬環(huán)境動(dòng)態(tài)的“虛擬大腦”,其核心是通過(guò)學(xué)習(xí)環(huán)境的物理規(guī)律,如物體運(yùn)動(dòng)、碰撞后果,預(yù)測(cè)未來(lái)狀態(tài),為VLA大模型提供環(huán)境認(rèn)知支持。在攻堅(jiān)世界模型技術(shù)瓶頸方面,智元近期發(fā)布了自主研發(fā)的世界模型GE。相比傳統(tǒng)機(jī)器人的你說(shuō)什么、它做什么,GE通過(guò)學(xué)習(xí)物理規(guī)律、環(huán)境動(dòng)態(tài),在內(nèi)部預(yù)測(cè)未來(lái)狀態(tài),模擬人類(lèi)“腦內(nèi)推演”,從而讓機(jī)器人具備了主動(dòng)預(yù)判與決策的能力,像人一樣先想、再練、后做。搭載該模型的機(jī)器人已實(shí)現(xiàn)“做三明治”“倒茶”“擦桌面”等任務(wù)。GE平臺(tái)開(kāi)放底層架構(gòu),未來(lái)或成為機(jī)器人界的“安卓系統(tǒng)”。 通用智能還需突破核心挑戰(zhàn) 具身智能大腦技術(shù)不斷有突破,但要實(shí)現(xiàn)通用智能,讓機(jī)器像人一樣“理解”環(huán)境,具備舉一反三的泛化能力,受訪(fǎng)專(zhuān)家認(rèn)為目前水平差距極大。“機(jī)器人在某些特殊場(chǎng)景下能自主完成動(dòng)作,比如足球比賽,但到了別的場(chǎng)景就不會(huì)了。”趙明國(guó)說(shuō)。 業(yè)界專(zhuān)家認(rèn)為,觸覺(jué)融入、硬件、模型等方面的挑戰(zhàn),制約著具身智能向通用智能演進(jìn)。 觸覺(jué)融入方面,機(jī)器人從“看得見(jiàn)”走向“摸得著、懂力度、會(huì)適應(yīng)”任重道遠(yuǎn)。VLA大模型整合了視覺(jué)、語(yǔ)言、動(dòng)作三種模態(tài),如果再加上觸覺(jué)則困難重重。觸覺(jué)感知是一個(gè)多維度感知的能力,除了力度感知外,還涉及材質(zhì)感知,比如表面干性程度、溫度高低、柔性還是脆性等。 “當(dāng)視覺(jué)數(shù)據(jù)跟觸覺(jué)數(shù)據(jù)加在一起,要考慮的有效數(shù)據(jù)元素過(guò)多,模型體量增大,難度也必然提升。”他山科技CEO、聯(lián)合創(chuàng)始人馬揚(yáng)舉例,他山科技正在研究機(jī)器人剝小龍蝦任務(wù),這種看似非常簡(jiǎn)單的精細(xì)動(dòng)作,實(shí)則需要大量的訓(xùn)練和學(xué)習(xí)。“我們目前在武漢招募了十幾個(gè)人的團(tuán)隊(duì)做小龍蝦項(xiàng)目,計(jì)劃今年底完成模型訓(xùn)練,并推進(jìn)小批量試驗(yàn)。” 硬件方面,具身智能本體端部署的大模型,對(duì)算力水平要求高,專(zhuān)用芯片仍不夠成熟。“需要加速發(fā)展低功耗、高性能且專(zhuān)用于具身智能大模型的芯片;同時(shí)將大參數(shù)模型輕量化、小型化,并保證在執(zhí)行任務(wù)時(shí)性能不會(huì)大幅下降。”一位高校具身智能專(zhuān)家提出。 算法層面,業(yè)界仍難以訓(xùn)練出強(qiáng)泛化能力的大模型。中國(guó)信息通信研究院人工智能所安全與具身智能部副主任張蔚敏介紹,在3D場(chǎng)景中的情景問(wèn)答(SQA3D)任務(wù)中,當(dāng)前最先進(jìn)的模型準(zhǔn)確率已提升至55%~60%區(qū)間,但仍遠(yuǎn)低于人類(lèi)的90.06%,這表明算法成熟度不夠高。 此外,目前探討的具身智能多為單體智能,在實(shí)際應(yīng)用中,多臺(tái)機(jī)器人協(xié)同工作的群體智能,亦是行業(yè)需要攻克的課題。 不可否認(rèn),具身智能產(chǎn)業(yè)飛速發(fā)展,泛化能力正越來(lái)越強(qiáng)大。“部分場(chǎng)景樂(lè)觀估計(jì)三五年就能在技術(shù)上實(shí)現(xiàn)突破。”趙明國(guó)表示。 分級(jí)分類(lèi)加快落地 加速實(shí)現(xiàn)通用智能,僅靠實(shí)驗(yàn)室環(huán)境無(wú)法模擬復(fù)雜場(chǎng)景的動(dòng)態(tài)不確定性,需要在真實(shí)落地場(chǎng)景中暴露問(wèn)題并找到解決方案。“具身智能需要一個(gè)標(biāo)準(zhǔn)分層,有標(biāo)準(zhǔn)就可以實(shí)現(xiàn)技術(shù)對(duì)齊,加速產(chǎn)品落地。”瑞銀證券中國(guó)工業(yè)分析師王斐麗說(shuō)。 目前,國(guó)內(nèi)一些行業(yè)機(jī)構(gòu)效仿智能駕駛分級(jí)標(biāo)準(zhǔn),提出了具身智能相關(guān)分級(jí)框架,以加快技術(shù)進(jìn)步和場(chǎng)景落地。 例如,2024年10月國(guó)家地方共建人形機(jī)器人創(chuàng)新中心聯(lián)合行業(yè)內(nèi)企業(yè)和機(jī)構(gòu),在上海發(fā)布了《人形機(jī)器人分類(lèi)分級(jí)應(yīng)用指南》團(tuán)體標(biāo)準(zhǔn)和《具身智能智能化發(fā)展階段分級(jí)指南》團(tuán)體標(biāo)準(zhǔn)。 北京人形機(jī)器人創(chuàng)新中心有限公司牽頭制定的團(tuán)標(biāo)《人形機(jī)器人智能化分級(jí)》從感知、決策、執(zhí)行、協(xié)作四個(gè)維度建立了四維五級(jí)評(píng)價(jià)體系,給出了通用安全底線(xiàn),明確了不同等級(jí)機(jī)器人的能力要求和適用場(chǎng)景,有助于加速推動(dòng)人形機(jī)器人在特種作業(yè)、物流搬運(yùn)、教育科研、商業(yè)服務(wù)、健康養(yǎng)老等多領(lǐng)域的應(yīng)用落地,打破技術(shù)與場(chǎng)景之間的壁壘。 受訪(fǎng)專(zhuān)家建議,參照自動(dòng)駕駛在封閉場(chǎng)景和開(kāi)放場(chǎng)景中不同等級(jí)的應(yīng)用,加速人形機(jī)器人等分級(jí)應(yīng)用。工廠(chǎng)車(chē)間等封閉場(chǎng)景,障礙物、光線(xiàn)、地形等因素都比較容易預(yù)測(cè)和控制,高等級(jí)人形機(jī)器人可以在這樣的環(huán)境中更穩(wěn)定地執(zhí)行復(fù)雜任務(wù),如進(jìn)行高精度的零件裝配、特定區(qū)域的貨物搬運(yùn)等。而開(kāi)放場(chǎng)景,具有高度的不確定性,人形機(jī)器人在這些場(chǎng)景中運(yùn)行需要應(yīng)對(duì)各種突發(fā)情況,因此可以使用較低等級(jí)的人形機(jī)器人執(zhí)行一些特定任務(wù),如引導(dǎo)服務(wù)、物品配送等,逐步積累開(kāi)放場(chǎng)景運(yùn)行經(jīng)驗(yàn)。 |
1、凡本網(wǎng)注明“來(lái)源:建甌新聞網(wǎng)“的所有文字、圖片和視頻,版權(quán)均屬建甌新聞網(wǎng)所有,任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)被本網(wǎng)協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時(shí)必須注明“來(lái)源:建甌新聞網(wǎng)”,違者本網(wǎng)將依法追究責(zé)任。
2、本網(wǎng)未注明“來(lái)源:建甌新聞網(wǎng)”的文/圖等稿件均為轉(zhuǎn)載稿,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)下載使用,必須保留本網(wǎng)注明的“來(lái)源”,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“來(lái)源:建甌新聞網(wǎng)”,本網(wǎng)將依法追究責(zé)任。如對(duì)文章內(nèi)容有疑議,請(qǐng)及時(shí)與我們聯(lián)系。