出發(fā)點(diǎn)&動(dòng)機(jī)
從人類(lèi)視頻中學(xué)習(xí)執(zhí)行操作任務(wù)是一種很有前景的機(jī)器人教學(xué)方法。然而,許多操作任務(wù)需要在任務(wù)執(zhí)行過(guò)程中改變控制參數(shù)(如力),而僅靠視覺(jué)數(shù)據(jù)無(wú)法捕捉這些信息。這里利用臂帶(測(cè)量人體肌肉活動(dòng))和麥克風(fēng)(記錄聲音)等傳感設(shè)備,捕捉人類(lèi)操作過(guò)程中的細(xì)節(jié),使機(jī)器人能夠提取任務(wù)計(jì)劃和控制參數(shù)以執(zhí)行相同任務(wù)。為此,引入了模態(tài)鏈(CoM),這是一種提示策略,使視覺(jué)語(yǔ)言模型(VLM)能夠?qū)Χ嗄B(tài)人類(lèi)演示數(shù)據(jù)(視頻結(jié)合肌肉或音頻信號(hào))進(jìn)行推理。通過(guò)逐步整合來(lái)自每個(gè)模態(tài)的信息,CoM優(yōu)化任務(wù)計(jì)劃并生成詳細(xì)的控制參數(shù),使機(jī)器人能夠基于單個(gè)多模態(tài)人類(lèi)視頻提示執(zhí)行操作任務(wù)。我們的實(shí)驗(yàn)表明,與基線方法相比,CoM在提取任務(wù)計(jì)劃和控制參數(shù)的準(zhǔn)確性上提高了三倍,并且在真實(shí)機(jī)器人實(shí)驗(yàn)中對(duì)新任務(wù)設(shè)置和物體具有很強(qiáng)的泛化能力。
背景介紹
機(jī)器人能否僅通過(guò)觀看一個(gè)人類(lèi)手部視頻演示,就能學(xué)會(huì)執(zhí)行物理挑戰(zhàn)性操作任務(wù)(如擰開(kāi)礦泉水瓶或打鼓)?實(shí)現(xiàn)這一能力的一種方法是從視頻中識(shí)別人類(lèi)任務(wù)計(jì)劃,然后將其轉(zhuǎn)化為可執(zhí)行的機(jī)器人技能。盡管視頻理解領(lǐng)域的最新進(jìn)展在動(dòng)作識(shí)別方面取得了有希望的結(jié)果,但許多操作技能需要精確指定控制參數(shù),而這些參數(shù)僅從純視覺(jué)信息中難以推斷,例如:輕輕握住鑰匙進(jìn)行旋轉(zhuǎn)、用力插入插頭、輕敲鼓面以產(chǎn)生柔和的聲音。這一限制制約了機(jī)器人僅通過(guò)觀看人類(lèi)視頻執(zhí)行多樣化操作任務(wù)的能力。
這里的核心挑戰(zhàn)是,僅從人類(lèi)視頻數(shù)據(jù)中提取任務(wù)計(jì)劃非常困難,因?yàn)榧円曈X(jué)數(shù)據(jù)缺乏識(shí)別這些計(jì)劃所需的細(xì)節(jié)。一個(gè)關(guān)鍵觀察是,人類(lèi)任務(wù)計(jì)劃中的許多細(xì)節(jié)(如力和速度等控制參數(shù))可以通過(guò)肌肉活動(dòng)和物體交互聲音等附加信號(hào)更好地捕捉。例如,插入電源插頭時(shí),人類(lèi)會(huì)先以較小的力握住插頭調(diào)整方向,然后用力將其插入插座。在這項(xiàng)工作中,我們利用配備肌肉傳感器的現(xiàn)代臂帶和帶麥克風(fēng)的運(yùn)動(dòng)相機(jī)等傳感設(shè)備,收集包含圖像、肌肉活動(dòng)和物體交互聲音的多模態(tài)演示視頻。這些設(shè)備提供了人類(lèi)在操作過(guò)程中何時(shí)以及如何施加物理力的額外信息。然而,有效利用這些信號(hào)需要新的方法來(lái)對(duì)多模態(tài)人類(lèi)演示視頻進(jìn)行推理。
視覺(jué)語(yǔ)言模型(VLM)能夠解決從視覺(jué)推理到信號(hào)處理,甚至生成控制機(jī)器人的代碼等廣泛的實(shí)際問(wèn)題。長(zhǎng)上下文輸入的最新進(jìn)展進(jìn)一步使VLM能夠?qū)⒁曨l和長(zhǎng)序列數(shù)值信號(hào)作為輸入。這讓我們思考:VLM能否作為通用推理模型,從多模態(tài)演示視頻中推斷人類(lèi)任務(wù)計(jì)劃?大多數(shù)VLM應(yīng)用仍只接受單一模態(tài)作為輸入。為應(yīng)對(duì)這一挑戰(zhàn),引入了模態(tài)鏈(CoM)框架,該框架提示VLM依次分析每個(gè)模態(tài),通過(guò)整合來(lái)自每個(gè)模態(tài)的新信息逐步優(yōu)化答案。
CoM使VLM能夠通過(guò)分析單個(gè)多模態(tài)人類(lèi)視頻提取任務(wù)計(jì)劃和控制參數(shù)。借助CoM,附加模態(tài)的加入幫助VLM更好地分割子任務(wù)。例如,當(dāng)人類(lèi)打開(kāi)瓶子時(shí),力數(shù)據(jù)中的三個(gè)峰值信號(hào)表明三次扭轉(zhuǎn)動(dòng)作。CoM使VLM能夠利用這些信息,首先將整個(gè)任務(wù)分割為粗略的任務(wù)框架,然后通過(guò)整合其他模態(tài)逐步填充更多細(xì)節(jié)。此外,從附加模態(tài)獲取的力信息使VLM能夠?yàn)橹T如“抓握”和“擊打”等技能生成更準(zhǔn)確的控制參數(shù),不同級(jí)別的力。根據(jù)經(jīng)驗(yàn),發(fā)現(xiàn)CoM從人類(lèi)視頻中提取精確任務(wù)計(jì)劃和控制參數(shù)的準(zhǔn)確率達(dá)到60%。僅依賴(lài)純視覺(jué)數(shù)據(jù)的方法準(zhǔn)確率為零,而直接將所有模態(tài)一次性輸入模型的簡(jiǎn)單方法平均準(zhǔn)確率為17%。
如何將這些任務(wù)計(jì)劃轉(zhuǎn)化為機(jī)器人動(dòng)作?先前的工作表明,基礎(chǔ)模型可以根據(jù)語(yǔ)言指令生成機(jī)器人可執(zhí)行的API調(diào)用。我們的場(chǎng)景不同之處在于,要求基礎(chǔ)模型根據(jù)多模態(tài)演示視頻生成API調(diào)用。這些API調(diào)用具有跨實(shí)體泛化的優(yōu)勢(shì),因?yàn)榇aAPI可以抽象掉機(jī)器人實(shí)體,允許在不同機(jī)器人之間順利部署。此外,基于高級(jí)視覺(jué)模型的代碼API進(jìn)一步使機(jī)器人能夠泛化到新物體和未見(jiàn)物體配置。
主要貢獻(xiàn)如下:
- 模態(tài)鏈(CoM):一種提示策略,使VLM能夠通過(guò)逐步整合視覺(jué)和力信息,從多模態(tài)人類(lèi)視頻演示數(shù)據(jù)中進(jìn)行推理。
- 一次性操作程序生成:一種從單個(gè)多模態(tài)人類(lèi)演示視頻生成機(jī)器人控制程序的流程,整合力信息(通過(guò)肌肉或音頻信號(hào)獲得)以生成不同技能的細(xì)粒度控制參數(shù)。
- 通用性:展示了CoM在兩種高級(jí)VLM模型上的一致優(yōu)勢(shì),并且方法允許VLM從單個(gè)人類(lèi)視頻中學(xué)習(xí)編寫(xiě)機(jī)器人代碼,這些代碼可以在不同的真實(shí)機(jī)器人平臺(tái)上運(yùn)行,具有泛化能力。
相關(guān)工作
從視頻中理解人類(lèi)活動(dòng)
理解視頻中的人類(lèi)活動(dòng)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的長(zhǎng)期研究重點(diǎn)。早期工作主要旨在通過(guò)分類(lèi)捕捉視頻的高級(jí)語(yǔ)義含義。為了提取更詳細(xì)的信息,后來(lái)的研究開(kāi)始專(zhuān)注于從視頻中推導(dǎo)任務(wù)計(jì)劃。然而,這些方法往往受限于對(duì)特定訓(xùn)練數(shù)據(jù)集的依賴(lài),難以泛化到未見(jiàn)的動(dòng)作類(lèi)別。近年來(lái),大型視覺(jué)語(yǔ)言模型的發(fā)展使得提示VLM從視頻中理解人類(lèi)活動(dòng)取得了令人印象深刻的結(jié)果。與先前工作不同,本工作側(cè)重于對(duì)包含力或音頻信息的多模態(tài)人類(lèi)視頻進(jìn)行推理,為下游細(xì)粒度機(jī)器人操作任務(wù)提供必要信息。
機(jī)器人與控制的基礎(chǔ)模型
近年來(lái),基礎(chǔ)模型在機(jī)器人領(lǐng)域取得了顯著進(jìn)展,涵蓋從高級(jí)推理到低級(jí)控制的多個(gè)層面。早期工作主要集中在語(yǔ)言條件下的機(jī)器人推理和規(guī)劃,其中任務(wù)使用自然語(yǔ)言定義。然而,一些操作任務(wù)(尤其是涉及空間歧義或需要細(xì)粒度控制的任務(wù))僅用語(yǔ)言難以精確描述。視覺(jué)語(yǔ)言模型(VLM)的最新進(jìn)展引入了更具表現(xiàn)力的任務(wù)規(guī)范,如視覺(jué)注釋。我們的工作則使用一次性多模態(tài)視頻作為任務(wù)規(guī)范,使機(jī)器人能夠從人類(lèi)演示中提取任務(wù)計(jì)劃和控制參數(shù)。為了將基礎(chǔ)模型應(yīng)用于機(jī)器人控制,已經(jīng)出現(xiàn)了幾種有前景的方法,包括基于目標(biāo)條件策略的子目標(biāo)選擇、軌跡優(yōu)化的獎(jiǎng)勵(lì)或約束生成,以及基于感知和控制原語(yǔ)的代碼生成。與這些基于語(yǔ)言輸入的方法不同,這里展示了VLM如何直接從一次性人類(lèi)視頻輸入中進(jìn)行推理,生成低級(jí)操作程序,為提示機(jī)器人執(zhí)行具有豐富視覺(jué)提示的新任務(wù)提供了一種替代方法。
從人類(lèi)視頻中學(xué)習(xí)操作
最近大量研究探索了利用人類(lèi)視頻數(shù)據(jù)來(lái)教機(jī)器人操作技能。這些工作側(cè)重于從人類(lèi)視頻中提取不同信息,如物體功能、運(yùn)動(dòng)軌跡、任務(wù)動(dòng)態(tài)和獎(jiǎng)勵(lì)表示。像一些工作訓(xùn)練了基于人類(lèi)或機(jī)器人視頻(而非語(yǔ)言指令)的操作策略。盡管它們有效,但由于這些方法僅從視頻(圖像序列)中學(xué)習(xí),無(wú)法推斷許多操作任務(wù)所需的重要細(xì)節(jié),例如施加多大的力。在這項(xiàng)工作中,我們專(zhuān)注于開(kāi)發(fā)能夠利用多種傳感模態(tài)(包括圖像、力和聲音)的方法,以更好地理解人類(lèi)演示中不易察覺(jué)的微妙細(xì)節(jié),并使機(jī)器人能夠更好地執(zhí)行此類(lèi)任務(wù)。
從多模態(tài)人類(lèi)視頻中學(xué)習(xí)
這里介紹提出的系統(tǒng)設(shè)計(jì),該系統(tǒng)以單個(gè)多模態(tài)人類(lèi)演示視頻為輸入,并生成機(jī)器人可執(zhí)行代碼以執(zhí)行視頻中演示的操作任務(wù)。系統(tǒng)有三個(gè)主要組件:(1)收集多模態(tài)人類(lèi)視頻;(2)用于理解多模態(tài)人類(lèi)視頻的模態(tài)鏈;(3)生成代碼和控制機(jī)器人。對(duì)于每個(gè)組件,首先討論動(dòng)機(jī),然后給出示例。
多模態(tài)人類(lèi)演示視頻
視頻通常難以捕捉人類(lèi)執(zhí)行操作任務(wù)的細(xì)粒度細(xì)節(jié),尤其是涉及力施加的細(xì)節(jié)。例如,插入電源插頭時(shí),首先施加輕力調(diào)整其方向,然后增加力進(jìn)行插入。這些不同的力級(jí)別至關(guān)重要,但僅從視頻中難以觀察到,這凸顯了需要超越視覺(jué)信息的多模態(tài)數(shù)據(jù)。
為解決這些挑戰(zhàn),我們考慮多模態(tài)人類(lèi)視頻在每個(gè)時(shí)間步包括RGB圖像、人體肌肉信號(hào)或物體交互聲音以及手部姿勢(shì)。它們共同提供了人類(lèi)任務(wù)計(jì)劃的更全面視圖。由帶肌肉傳感器(EMG)的臂帶捕捉的人體肌肉信號(hào)或由麥克風(fēng)捕捉的物體交互聲音可以提供必要的力信息,指示人類(lèi)在整個(gè)任務(wù)中施加力的時(shí)間和大小。此外,為了提供人類(lèi)手部動(dòng)作的更詳細(xì)信息,我們使用基于視覺(jué)的方法來(lái)估計(jì)手部姿勢(shì),并將指尖的像素位置作為另一個(gè)輸入模態(tài)。
模態(tài)鏈
接下來(lái),使用視覺(jué)語(yǔ)言模型(VLM)來(lái)分析此類(lèi)多模態(tài)人類(lèi)視頻中提供的豐富信息,以提取任務(wù)計(jì)劃描述。VLM需要處理來(lái)自所有這些模態(tài)的信號(hào):以正確的時(shí)間順序識(shí)別人類(lèi)動(dòng)作,并確定每個(gè)動(dòng)作的控制參數(shù)(如目標(biāo)物體名稱(chēng)、運(yùn)動(dòng)方向)。使用VLM實(shí)現(xiàn)此目的的一種方法是將所有模態(tài)按順序交織在一起直接查詢(xún)模型。然而,我們發(fā)現(xiàn)最先進(jìn)的VLM(如Gemini 1.5 Pro、GPT-4o)往往難以關(guān)聯(lián)模態(tài)之間的信息,導(dǎo)致忽略某些輸入或嘗試從錯(cuò)誤模態(tài)提取信息等問(wèn)題。為了提高VLM在理解多模態(tài)人類(lèi)視頻方面的性能,提出了模態(tài)鏈(CoM),這是一種提示策略,查詢(xún)VLM按順序分析每個(gè)模態(tài),提取關(guān)鍵信息并逐步聚合結(jié)果以產(chǎn)生最終答案。
模態(tài)鏈提示:CoM提示由三部分組成:(1)每個(gè)模態(tài)及其輸入數(shù)據(jù)格式的描述;(2)可用動(dòng)作集的描述以及動(dòng)作參數(shù)的解釋?zhuān)唬?)一個(gè)視頻到分析對(duì)的示例,介紹如何分析每個(gè)模態(tài)以生成帶參數(shù)的已識(shí)別動(dòng)作序列。
模態(tài)鏈?zhǔn)纠?/strong>:圖2展示了使用CoM分析多模態(tài)人類(lèi)視頻的示例。在此視頻中,一個(gè)人用左手握住瓶子,用右手?jǐn)Q開(kāi)瓶蓋。CoM依次分析每個(gè)輸入模態(tài),并基于先前分析優(yōu)化答案。在圖2中,我們用不同顏色突出顯示每個(gè)模態(tài)貢獻(xiàn)的新信息。在第一階段,VLM分析力或聽(tīng)覺(jué)信號(hào),找出人何時(shí)施加和釋放力,然后推斷出人施加力的次數(shù)。然而,沒(méi)有手部和圖像信息,不清楚人具體在做什么。在第二階段,VLM結(jié)合手部姿勢(shì)信息,現(xiàn)在識(shí)別出人在施加力時(shí)正在抓握和扭轉(zhuǎn),手指位置還表明在握住瓶子時(shí)逆時(shí)針扭轉(zhuǎn)約180度,釋放時(shí)順時(shí)針旋轉(zhuǎn)手指。仍然,沒(méi)有圖像數(shù)據(jù),任務(wù)中出現(xiàn)的物體仍然未知。在第三階段,VLM整合圖像數(shù)據(jù),識(shí)別出左手握住瓶子,右手?jǐn)Q開(kāi)瓶蓋。有了這些信息,VLM生成動(dòng)作函數(shù),指定每個(gè)時(shí)間步的詳細(xì)動(dòng)作參數(shù)。請(qǐng)注意,示例提示中沒(méi)有出現(xiàn)任何任務(wù)或物體,示例提示僅用于演示分析的輸出格式和可用技能庫(kù)。
編寫(xiě)機(jī)器人代碼
基于上述人類(lèi)視頻分析,最后一步是將動(dòng)作序列轉(zhuǎn)換為具有低級(jí)API調(diào)用的機(jī)器人可執(zhí)行代碼。使用相同的VLM執(zhí)行此代碼生成,以創(chuàng)建完成任務(wù)的操作程序。代碼生成提示包括視頻分析以及機(jī)器人API的描述和所需的輸出格式。
生成高級(jí)任務(wù)計(jì)劃示例:以下是上述開(kāi)瓶任務(wù)生成的程序示例:
Move_to('left', Find('bottle')) Grasp('left') Move_to('right', Find('bottle_cap')) for _ in range(3): Grasp('right') Twist('right', 'counterclockwise', 180) Release('right') Twist('right', 'clockwise', 180)
VLM結(jié)合來(lái)自CoM的視頻分析,生成了詳細(xì)的開(kāi)瓶任務(wù)計(jì)劃,包括使用右?jiàn)A具在握住瓶蓋時(shí)逆時(shí)針扭轉(zhuǎn),以及在不握住瓶蓋時(shí)順時(shí)針扭轉(zhuǎn),還生成了一個(gè)for循環(huán)腳本來(lái)指定周期性扭轉(zhuǎn)動(dòng)作。
生成控制參數(shù)示例:除了生成任務(wù)計(jì)劃外,在諸如將插頭插入電源插座等接觸豐富的任務(wù)中,VLM還可以生成控制參數(shù)以指定力的使用:
from skills import Grasp, Push_towards, Insert Grasp('right', 'plug', 100) # 力范圍從[0, 100] Move_to('right', 'box', 20) # 在手內(nèi)旋轉(zhuǎn)插頭 Insert('right', 'power_strip', 100)
利用來(lái)自多模態(tài)人類(lèi)視頻的力信息,VLM指定了不同任務(wù)階段施加的力大小,允許使用Move_to通過(guò)向墻壁推壓(力=20)來(lái)重新調(diào)整手中插頭的方向,并在將插頭插入電源插座時(shí)用力握?。?100)。
實(shí)現(xiàn)細(xì)節(jié)
數(shù)據(jù)收集:肌肉信號(hào)(EMG)包含八個(gè)通道的數(shù)據(jù),采樣率為200Hz。由于相機(jī)以60Hz記錄,我們對(duì)肌肉信號(hào)進(jìn)行下采樣以匹配相機(jī)采樣率,并使用八個(gè)通道的最大值作為每個(gè)時(shí)間步的力信號(hào)。與音頻信號(hào)類(lèi)似,我們計(jì)算每個(gè)時(shí)間步的聲音響度作為輸入音頻值。對(duì)于手部姿勢(shì)估計(jì),我們使用HaMeR來(lái)定位指尖的像素位置。信號(hào)處理步驟的更多細(xì)節(jié)可在附錄中找到。
機(jī)器人執(zhí)行:機(jī)器人API調(diào)用由預(yù)定義的控制函數(shù)組成,這些函數(shù)將生成的程序“接地”到真實(shí)機(jī)器人系統(tǒng)中。這些API從感知模型的最新進(jìn)展中受益匪淺。例如,在實(shí)驗(yàn)中所有物體定位都是通過(guò)向Gemini 1.5 Pro查詢(xún)RGB-D圖像和目標(biāo)物體名稱(chēng)(如生成的程序中所指定)來(lái)執(zhí)行的,這直接在RGB圖像上生成目標(biāo)物體周?chē)?D邊界框。然后,我們使用深度信息和相機(jī)參數(shù)創(chuàng)建檢測(cè)到的邊界框內(nèi)實(shí)體的3D點(diǎn)云,并使用平均3D位置表示物體的位置。這些開(kāi)放詞匯API簡(jiǎn)化了生成的程序與機(jī)器人感知系統(tǒng)之間的連接,直接增強(qiáng)了基于代碼的機(jī)器人策略的能力。
實(shí)驗(yàn)分析
實(shí)驗(yàn)旨在回答以下問(wèn)題:
Q1:模態(tài)鏈?zhǔn)欠衲芴岣遃LM對(duì)多模態(tài)人類(lèi)視頻的理解?
Q2:力信息是否有助于VLM推理人類(lèi)任務(wù)計(jì)劃?
Q3:手部姿勢(shì)是否有助于細(xì)粒度操作?
Q4:帶有CoM的VLM能否從多模態(tài)人類(lèi)視頻中提取控制參數(shù)?
Q5:生成的程序在真實(shí)機(jī)器人上的表現(xiàn)如何?
實(shí)驗(yàn)設(shè)置
基線方法:
將基線分為兩類(lèi):
- 輸入模態(tài)差異組:包括僅圖像(純視覺(jué))、無(wú)力數(shù)據(jù)(排除肌肉/音頻信號(hào))、無(wú)手部姿態(tài)(僅力+圖像)、無(wú)圖像(力+手部姿態(tài))、全模態(tài)(力+手部姿態(tài)+圖像)。
- 推理流程差異組:包括直接合并所有模態(tài)輸入(Merg)、分模態(tài)處理后合并(Sep-Merg)、分模態(tài)獨(dú)立處理(Sep-Sep),以及我們的模態(tài)鏈方法(CoM,逐步整合模態(tài)信息)。
任務(wù)設(shè)計(jì):
- 多模態(tài)視頻分析任務(wù):測(cè)試按壓立方體、插入插頭、打鼓、開(kāi)瓶4類(lèi)任務(wù),每個(gè)任務(wù)包含10個(gè)不同物體/視角的測(cè)試視頻,評(píng)估VLM提取任務(wù)計(jì)劃的準(zhǔn)確率與相似度分?jǐn)?shù)(基于輸出與真實(shí)標(biāo)簽的最長(zhǎng)公共子串)。
- 真實(shí)機(jī)器人執(zhí)行任務(wù):在開(kāi)瓶、插入插頭、擦板、打鼓4項(xiàng)任務(wù)上測(cè)試生成代碼的執(zhí)行效果,包含泛化場(chǎng)景(如未見(jiàn)瓶子類(lèi)型、隨機(jī)物體擺放)和跨機(jī)器人平臺(tái)(ViperX與KUKA雙臂機(jī)器人)部署。
數(shù)據(jù)與提示:
- 多模態(tài)數(shù)據(jù)包含同步的RGB視頻、肌肉電信號(hào)(EMG)或音頻音量、手部指尖2D坐標(biāo)。
- 提示模板包含輸入格式說(shuō)明(如“力信號(hào)為歸一化浮點(diǎn)數(shù)”)、動(dòng)作庫(kù)示例(如Grasp(hand, object, force)),并使用與測(cè)試任務(wù)無(wú)關(guān)的示例視頻(如按壓蘋(píng)果)引導(dǎo)VLM輸出結(jié)構(gòu)化分析結(jié)果。
實(shí)驗(yàn)結(jié)果
模態(tài)鏈提升多模態(tài)理解能力
如圖5所示,在Gemini 1.5 Pro和GPT-4o模型上,模態(tài)鏈(CoM)顯著優(yōu)于其他基線方法:
- 與直接合并模態(tài)的Merg方法(平均準(zhǔn)確率17%)相比,CoM準(zhǔn)確率提升至60%,相似度分?jǐn)?shù)提高42%。
- 分階段處理模態(tài)的Sep-Sep方法雖優(yōu)于合并輸入,但CoM通過(guò)逐步利用前序模態(tài)分析結(jié)果(如先用EMG信號(hào)定位力施加時(shí)機(jī),再結(jié)合手部姿態(tài)推斷動(dòng)作類(lèi)型),進(jìn)一步提升17%-19%準(zhǔn)確率,證明順序推理對(duì)模態(tài)關(guān)聯(lián)的重要性。
力信息是任務(wù)計(jì)劃提取的關(guān)鍵
從表1可見(jiàn):
- 僅圖像輸入(Image-only)在所有任務(wù)中準(zhǔn)確率為0,表明純視覺(jué)無(wú)法推斷力相關(guān)參數(shù)(如擰瓶蓋的力度變化)。
- 包含力信號(hào)的全模態(tài)方法(All)相比無(wú)力基線(w.o. force),相似度分?jǐn)?shù)平均提升42%,尤其在開(kāi)瓶任務(wù)中,力信號(hào)的三個(gè)峰值直接對(duì)應(yīng)三次扭轉(zhuǎn)動(dòng)作的分段,驗(yàn)證了力數(shù)據(jù)對(duì)任務(wù)階段劃分的決定性作用。
手部姿態(tài)助力細(xì)粒度動(dòng)作解析
在開(kāi)瓶任務(wù)中,僅全模態(tài)方法(All)實(shí)現(xiàn)非零成功率。手部姿態(tài)提供的指尖旋轉(zhuǎn)方向(如逆時(shí)針180度)和抓握釋放時(shí)序,幫助VLM區(qū)分“握瓶身”與“擰瓶蓋”的不同動(dòng)作階段。這表明,視覺(jué)模型估計(jì)的手部關(guān)鍵點(diǎn)對(duì)解析復(fù)雜操作至關(guān)重要,彌補(bǔ)了VLM直接從視頻中提取精細(xì)手部運(yùn)動(dòng)的不足。
控制參數(shù)提取與機(jī)器人執(zhí)行效果
如圖4的定性結(jié)果所示,CoM能夠:
- 識(shí)別單/雙臂任務(wù)的目標(biāo)物體(如左手握瓶、右手?jǐn)Q蓋);
- 提取力強(qiáng)度(如插入插頭時(shí)force=100)、運(yùn)動(dòng)方向(逆時(shí)針)、時(shí)間戳(t=22-35s扭轉(zhuǎn))等細(xì)粒度參數(shù)。
在真實(shí)機(jī)器人測(cè)試中(表2),CoM生成的代碼平均成功率達(dá)73%,顯著優(yōu)于僅依賴(lài)視覺(jué)的基線(0%)。例如:
- 開(kāi)瓶任務(wù):在7種瓶子(6種未見(jiàn))上成功執(zhí)行,跨ViperX與KUKA機(jī)器人平臺(tái)的成功率分別為60%和75%;
- 插入插頭任務(wù):面對(duì)隨機(jī)擺放的插頭與插座,通過(guò)Gemini 1.5 Pro的視覺(jué)定位API(生成2D邊界框→轉(zhuǎn)換3D坐標(biāo))實(shí)現(xiàn)15/20次成功插入;
- 打鼓任務(wù):準(zhǔn)確復(fù)現(xiàn)不同力度的鼓點(diǎn)節(jié)奏(如輕擊force=20、重?fù)鬴orce=100),成功率80%。
與“Oracle”基線(手動(dòng)編寫(xiě)代碼,成功率92%)相比,CoM的差距主要來(lái)自視覺(jué)定位誤差(如目標(biāo)物體遮擋)和開(kāi)環(huán)控制限制(無(wú)法應(yīng)對(duì)突發(fā)干擾)。