自然語(yǔ)言作為人機(jī)交互主要媒介,存在空間精度不足、在安靜場(chǎng)所使用受限等問題。為此,我們引入機(jī)器人視覺指令(RoVI)這一全新范式,以對(duì)象為中心的手繪符號(hào)引導(dǎo)機(jī)器人任務(wù),利用多種元素編碼時(shí)空信息。為使機(jī)器人更好地理解 RoVI 并基于其生成精確動(dòng)作,我們提出視覺指令實(shí)體化工作流程(VIEW),借助視覺語(yǔ)言模型解釋 RoVI,提取關(guān)鍵點(diǎn)解碼約束并生成三維動(dòng)作。我們還整理了一個(gè)包含15000 個(gè)實(shí)例的專用數(shù)據(jù)集微調(diào)小型視覺語(yǔ)言模型,便于邊緣部署。該方法經(jīng) 11 項(xiàng)新任務(wù)驗(yàn)證,泛化能力強(qiáng),VIEW 在涉及多步動(dòng)作、干擾和軌跡跟蹤要求的真實(shí)世界未知任務(wù)場(chǎng)景中,成功率達(dá)到 87.5%,代碼和數(shù)據(jù)集即將發(fā)布。
自然語(yǔ)言雖在人機(jī)交互中直觀便捷,但借助大語(yǔ)言模型將其轉(zhuǎn)換為機(jī)器人動(dòng)作時(shí)存在挑戰(zhàn),如描述物體空間細(xì)節(jié)困難,表達(dá)空間需求易模糊冗長(zhǎng),且在某些公共場(chǎng)所語(yǔ)音交流不適宜。視覺模態(tài)能更直接精確傳達(dá)時(shí)空信息,但目標(biāo)圖像輸入與用戶操作順序相悖,軌跡繪制對(duì)用戶有挑戰(zhàn)、可讀性低,實(shí)際應(yīng)用不友好。
為解決這些局限,我們提出一種新的通信范式:機(jī)器人視覺指令(RoVI),如圖 1 左側(cè)所示。這是一種手繪草圖指令方法,是以對(duì)象為中心的表示方式,利用二維符號(hào)語(yǔ)言來指揮三維實(shí)體操作。該范式為自然語(yǔ)言指令提供了一種直觀、簡(jiǎn)潔且無(wú)聲的替代方案。其基本元素包括箭頭、圓圈和各種顏色,用于表示不同的動(dòng)作時(shí)間順序,數(shù)字則用于標(biāo)記雙臂系統(tǒng)中的不同實(shí)體。箭頭指示軌跡和方向,圓圈表示可操作位置,用于在雜亂環(huán)境中識(shí)別目標(biāo)物體。顏色清晰地傳達(dá)時(shí)間順序。通過整合這些元素,RoVI 將一系列三維坐標(biāo)壓縮成人類可理解的二維視覺語(yǔ)言,從而在用戶友好性、可解釋性和時(shí)空對(duì)齊方面實(shí)現(xiàn)了最佳平衡,如圖 2 左側(cè)所示。
為了更好地理解 RoVI 并用于指導(dǎo)機(jī)器人操作,我們引入視覺指令實(shí)體化工作流程(VIEW)。這是一個(gè)將二維 RoVI 指令轉(zhuǎn)換為機(jī)器人操作的三維動(dòng)作序列的流程,借助視覺語(yǔ)言模型轉(zhuǎn)換為語(yǔ)言響應(yīng)和 Python 代碼函數(shù),分解任務(wù)為單步子任務(wù),提出關(guān)鍵點(diǎn)模塊提取關(guān)鍵點(diǎn)作為約束,基于關(guān)鍵點(diǎn)策略指導(dǎo)機(jī)器人執(zhí)行任務(wù) 。
除了上述框架,我們開發(fā)了一個(gè)包含 15000 個(gè)訓(xùn)練實(shí)例的數(shù)據(jù)集,使模型能夠通過參數(shù)高效微調(diào)(PEFT)學(xué)習(xí) RoVI 能力。通過上述設(shè)計(jì),我們的方法在真實(shí)世界和模擬環(huán)境中的各種未知任務(wù)中均表現(xiàn)出色,展現(xiàn)出強(qiáng)大的泛化性和魯棒性。與基于語(yǔ)言的策略相比,我們的方法在雜亂環(huán)境、多步操作和軌跡跟蹤任務(wù)中性能
本文的主要貢獻(xiàn)如下:
提出一種新穎的人機(jī)交互范式:RoVI。它采用手繪符號(hào)表示作為機(jī)器人指令,在任務(wù)定義中傳達(dá)更精確的時(shí)空信息。
設(shè)計(jì)了一個(gè)流程 VIEW(視覺指令實(shí)體化工作流程),以實(shí)現(xiàn)基于 RoVI 的操作任務(wù)。
開發(fā)了一個(gè)開源數(shù)據(jù)集,使模型能夠?qū)W習(xí) RoVI 能力。通過該數(shù)據(jù)集訓(xùn)練的輕量級(jí)模型表明,視覺語(yǔ)言模型能夠通過最少的計(jì)算資源和簡(jiǎn)單的微調(diào)學(xué)習(xí)這一能力。
機(jī)器人視覺指令設(shè)計(jì)
我們介紹 RoVI 的范式設(shè)計(jì),它由兩種視覺基元組成:箭頭和圓圈。所有簡(jiǎn)單或復(fù)雜的任務(wù)都被分解為三個(gè)以對(duì)象為中心的動(dòng)作:從 A 移動(dòng)到 B(由箭頭表示)、旋轉(zhuǎn)對(duì)象(一個(gè)表示可操作區(qū)域的圓圈,搭配一個(gè)表示旋轉(zhuǎn)角度的箭頭)以及拿起 / 選擇(由圓圈表示)。
剖析箭頭
我們使用二維箭頭表示機(jī)器人動(dòng)作的軌跡和時(shí)間順序。一個(gè)箭頭被分解為三個(gè)部分:尾部(起點(diǎn))、箭身(路徑點(diǎn))和頭部(終點(diǎn))。起點(diǎn)標(biāo)記物體上的抓取位置,終點(diǎn)表示動(dòng)作的目標(biāo)。中間路徑點(diǎn)捕捉運(yùn)動(dòng)路徑,形成一個(gè)有序集合:
其中是由關(guān)鍵點(diǎn)模塊提取的二維坐標(biāo)。
剖析圓圈
圓圈突出顯示物體上的關(guān)鍵交互區(qū)域。中心點(diǎn)代表可操作中心,可用于各種任務(wù):作為抓取點(diǎn)、旋轉(zhuǎn)軸點(diǎn),或作為諸如按下按鈕等動(dòng)作的施力點(diǎn)。
繪制設(shè)置
RoVI 可直接使用手寫筆和繪圖軟件在平板電腦或個(gè)人電腦上繪制,采用明亮的顏色以確保在各種背景下都清晰可見:綠色(RGB:0, 255, 94)用于操作任務(wù)的第一步,藍(lán)色(RGB:0, 255, 247)用于第二步,粉色(RGB:255, 106, 138)用于第三步。對(duì)于更多步驟,可以靈活分配額外顏色。我們?cè)O(shè)計(jì)了兩種繪圖風(fēng)格:自由風(fēng)格(隨意手繪)和幾何風(fēng)格(由幾何組件構(gòu)成,便于視覺語(yǔ)言模型更清晰地解釋)。我們用圓圈表示可操作區(qū)域,并將箭頭頭部替換為標(biāo)準(zhǔn)三角形。
RoVI Book 數(shù)據(jù)集
為使視覺語(yǔ)言模型能夠理解 RoVI,我們開發(fā)了一個(gè)用于 RoVI 條件策略的數(shù)據(jù)集,稱為 RoVI Book。如圖 7 所示,該數(shù)據(jù)集包含 15000 個(gè)圖像文本問答對(duì)。它包括:(1)標(biāo)注有 RoVI 的初始任務(wù)觀察圖像;(2)作為默認(rèn)提示的簡(jiǎn)單查詢;(3)由 GPT - 4o 生成的答案,涵蓋 RoVI 分析、任務(wù)名稱、細(xì)粒度規(guī)劃步驟和 Python 函數(shù)。原始任務(wù)和圖像選自 Open - X Embodiment 數(shù)據(jù)集。我們的數(shù)據(jù)集涵蓋 64% 的單步任務(wù)和 36% 的多步任務(wù),涉及五種基本操作技能:移動(dòng)物體、旋轉(zhuǎn)物體、拿起、打開抽屜 / 柜子和關(guān)閉抽屜 / 柜子 。答案最初由 GPT - 4o 生成,隨后通過基于人類反饋的語(yǔ)義過濾進(jìn)行優(yōu)化。每個(gè)任務(wù)保留了 Open - X Embodiments 中的原始語(yǔ)義任務(wù)名稱,同時(shí)我們對(duì) RoVI 進(jìn)行數(shù)據(jù)增強(qiáng),引入 3 - 8 種視覺變體,包括不同的路徑、繪圖風(fēng)格和線條粗細(xì)。
視覺指令實(shí)體化工作流程
工作流程概述
VIEW 由三個(gè)組件組成:(1)用于理解 RoVI 和進(jìn)行規(guī)劃的視覺語(yǔ)言模型;(2)用于生成時(shí)空約束的關(guān)鍵點(diǎn)模塊[28];(3)用于執(zhí)行機(jī)器人動(dòng)作的低級(jí)策略。
如圖 3 所示,該流程從視覺語(yǔ)言模型開始,其輸入為手繪的 RoVI 、初始觀察圖像以及系統(tǒng)提供的默認(rèn)提示。然后,視覺語(yǔ)言模型生成語(yǔ)言響應(yīng)和執(zhí)行函數(shù)。同時(shí),關(guān)鍵點(diǎn)模塊從 RoVI 中提取關(guān)鍵點(diǎn),生成時(shí)空約束,包括起點(diǎn)、多個(gè)路徑點(diǎn)和終點(diǎn)。最后,基于輸入的和關(guān)鍵點(diǎn)坐標(biāo),低級(jí)策略執(zhí)行相應(yīng)的動(dòng)作。
用于 RoVI 理解的視覺語(yǔ)言模型
鑒于視覺語(yǔ)言模型在視覺感知、內(nèi)置世界知識(shí)和推理方面的能力,我們使用它們來解釋 RoVI,并將其轉(zhuǎn)換為自然語(yǔ)言響應(yīng)。語(yǔ)言響應(yīng)作為人類反饋的通用接口,能夠驗(yàn)證視覺語(yǔ)言模型的理解程度,并將其與下游的低級(jí)策略相連接。與直接在 SE (3) 動(dòng)作空間中輸出參數(shù)的端到端策略相比,納入了基于語(yǔ)言的動(dòng)作表示,這使得在不同的任務(wù)和環(huán)境中具有更有效的泛化能力。
語(yǔ)言響應(yīng)由視覺語(yǔ)言模型通過思維鏈(Chain - of - Thought,CoT)推理過程生成。它包括粗粒度的任務(wù)預(yù)測(cè),提供高級(jí)任務(wù)描述,以及帶有子目標(biāo)序列的細(xì)粒度規(guī)劃,將任務(wù)分解為更小的步驟。隨后,每個(gè)子目標(biāo)被轉(zhuǎn)換為可執(zhí)行的代碼函數(shù),這些函數(shù)定義了機(jī)器人手臂所需的動(dòng)作或技能,如 move () 或 grasp ()。這些函數(shù)與關(guān)鍵點(diǎn)約束相結(jié)合,形成用于動(dòng)作執(zhí)行的低級(jí)策略。
關(guān)鍵點(diǎn)模塊
為了從像素空間中的 RoVI 解碼時(shí)空信息,我們根據(jù)顏色標(biāo)識(shí)符將多步任務(wù)分解為單步任務(wù)。單步任務(wù)之間的轉(zhuǎn)換被轉(zhuǎn)換為關(guān)鍵點(diǎn)之間的運(yùn)動(dòng),具體來說,是從步驟的終點(diǎn)到步驟j的起點(diǎn)。然后,經(jīng)過訓(xùn)練的關(guān)鍵點(diǎn)模塊提供關(guān)鍵點(diǎn)約束,其中包括末端執(zhí)行器坐標(biāo)序列以及在操作中關(guān)鍵點(diǎn)的語(yǔ)義功能,如起點(diǎn)、路徑點(diǎn)和終點(diǎn)。
我們采用 YOLOv8 作為,并構(gòu)建了一個(gè)包含 2000 張圖像的數(shù)據(jù)集用于其訓(xùn)練。與開放詞匯對(duì)象檢測(cè)相比,我們的策略簡(jiǎn)化了在不同環(huán)境中對(duì)所有對(duì)象的檢測(cè),以識(shí)別 RoVI 符號(hào)的組件,使其對(duì)環(huán)境變化或干擾對(duì)象的敏感性降低。
基于關(guān)鍵點(diǎn)的低級(jí)策略
我們提出一種基于關(guān)鍵點(diǎn)的低級(jí)策略,使機(jī)器人能夠遵循一系列定義為關(guān)鍵點(diǎn)的目標(biāo)姿態(tài)來執(zhí)行操作任務(wù)。這些關(guān)鍵點(diǎn)從 RGB 圖像中的動(dòng)作箭頭中提取,并使用 RGB - D 相機(jī)的深度數(shù)據(jù)映射到三維坐標(biāo)。
這些N個(gè)關(guān)鍵點(diǎn)隨后被映射到 SE (3) 空間中的一系列期望末端執(zhí)行器姿態(tài),表示為。初始姿態(tài)通過基于的抓取模塊獲得。這一系列姿態(tài)構(gòu)成了要執(zhí)行的動(dòng)作。我們將動(dòng)作分為兩類:平移(例如,移動(dòng)到、推、拉)和旋轉(zhuǎn)(例如,翻轉(zhuǎn)、推倒、調(diào)節(jié)旋鈕)。在每個(gè)時(shí)間步t,機(jī)器人執(zhí)行以下操作:
狀態(tài)觀察:從 RGB - D 相機(jī)獲取當(dāng)前末端執(zhí)行器姿態(tài)和目標(biāo)關(guān)鍵點(diǎn)。
成本函數(shù)最小化::通過運(yùn)動(dòng)規(guī)劃和插值向移動(dòng),最小化成本函數(shù)。
關(guān)鍵點(diǎn)轉(zhuǎn)換:如果,則標(biāo)記為已到達(dá),并繼續(xù)移動(dòng)到。直到時(shí),當(dāng)前動(dòng)作步驟結(jié)束。
每個(gè)時(shí)間步t的目標(biāo)小化: 其中表示動(dòng)作類型:平移時(shí),旋轉(zhuǎn)時(shí)。
實(shí)驗(yàn)分析
我們的實(shí)驗(yàn)旨在深入研究以下問題:
- RoVI 在真實(shí)世界和模擬環(huán)境中對(duì)未知環(huán)境和任務(wù)的泛化能力如何?
- 當(dāng)前的視覺語(yǔ)言模型對(duì) RoVI 的理解程度如何?
- RoVI 和 VIEW 的組件對(duì)整個(gè)流程的整體性能有何影響?
模型訓(xùn)練
我們選擇 GPT-4o 和 LLaVA13B 作為 VIEW 中的視覺語(yǔ)言模型,以控制機(jī)器人操作任務(wù)。我們還使用 LoRA 在我們的 RoVI Book 數(shù)據(jù)集上對(duì) LLaVA - 7B 和 13B 模型 進(jìn)行微調(diào),訓(xùn)練一輪,學(xué)習(xí)率為 2e-4。所有實(shí)驗(yàn)均在 NVIDIA A40 GPU 上進(jìn)行。
實(shí)施過程
我們訓(xùn)練一個(gè) YOLOv8 模型,從手繪指令中提取起點(diǎn)、路徑點(diǎn)和終點(diǎn),提供關(guān)鍵點(diǎn)約束。這些約束用于篩選由 AnyGrasp 生成的抓取姿態(tài),以獲得最接近的姿態(tài)。通過 RGB-D 映射獲得的 3D 坐標(biāo)和抓取姿態(tài)隨后被輸入到視覺語(yǔ)言模型生成的 Python 函數(shù)中,用于基于代碼的低級(jí)控制。
操作任務(wù)
我們精心設(shè)計(jì)了 11 個(gè)任務(wù):8 個(gè)在真實(shí)環(huán)境中,3 個(gè)在模擬環(huán)境中,如圖 5 和圖 6 所示。對(duì)于我們的方法而言,所有任務(wù)和環(huán)境都是之前未見過的,并且引入了新的物體。我們的設(shè)計(jì)包括 7 個(gè)單步任務(wù),其中一些涉及存在干擾的雜亂環(huán)境,例如 “選擇所需物體” 或 “在物體之間移動(dòng)”,這需要精確的空間對(duì)齊和軌跡跟蹤能力。此外,還有 4 個(gè)多階段任務(wù)(真實(shí)環(huán)境中的任務(wù) 6 - 8,模擬環(huán)境中的任務(wù) 3),用于進(jìn)一步測(cè)試對(duì)時(shí)空依賴關(guān)系的推理能力。
泛化到實(shí)際操作
-
真實(shí)世界設(shè)置與基線:在真實(shí)世界實(shí)驗(yàn)中,我們使用兩個(gè)配備雙指抓手的機(jī)械臂:UFACTORY X-Arm 6 和 UR5。兩個(gè)校準(zhǔn)后的 RealSense D435 相機(jī)分別用于自上而下和第三人稱視角拍攝。兩個(gè)機(jī)械臂均以 20Hz 的控制頻率在末端執(zhí)行器增量控制模式下運(yùn)行。我們將我們的方法與兩個(gè)基于語(yǔ)言條件策略的基線方法進(jìn)行比較,即 CoPa 和 VoxPoser,這兩種方法都利用 GPT 模型進(jìn)行低級(jí)策略控制。CoPa還使用 Set-of-Mark (SoM) 進(jìn)行對(duì)象標(biāo)記,作為視覺提示。為確保公平比較,所有方法都使用 GPT-4o 作為視覺語(yǔ)言模型。
-
動(dòng)作評(píng)估指標(biāo):我們報(bào)告兩個(gè)評(píng)估操作執(zhí)行情況的指標(biāo):動(dòng)作成功率,衡量達(dá)到定義目標(biāo)的任務(wù)百分比;時(shí)空對(duì)齊度,評(píng)估運(yùn)動(dòng)軌跡的一致性以及物體空間狀態(tài)與語(yǔ)義目標(biāo)的對(duì)齊程度。評(píng)估采用 6 分李克特量表。每個(gè)任務(wù)進(jìn)行 10 次試驗(yàn)。
-
結(jié)果:表 1 顯示,Voxposer 和 CoPa 在空間精度任務(wù)及任務(wù) 5 中表現(xiàn)差,存在軌跡跟蹤問題,因基于語(yǔ)言的指令模糊,僅提供對(duì)象級(jí)信息,缺乏像素級(jí)精度。而 VIEW 在這些任務(wù)中表現(xiàn)優(yōu)異,其關(guān)鍵點(diǎn)模塊提供空間約束和路徑點(diǎn),專注 RoVI 符號(hào)部分,對(duì)環(huán)境干擾不敏感,在真實(shí)操作中泛化性和魯棒性強(qiáng)。相較于其他使用視覺語(yǔ)言模型進(jìn)行時(shí)間序列推理的方法,VIEW 在長(zhǎng)時(shí)任務(wù)(任務(wù) 6 - 8)上性能出色,能依據(jù)顏色線索分解多步任務(wù),降低時(shí)間推理復(fù)雜度。
仿真對(duì)比研究
-
仿真設(shè)置與基線:本節(jié)在模擬環(huán)境(以 SAPIEN 為模擬器、SIMPLER 為基礎(chǔ)環(huán)境)中,對(duì)比語(yǔ)言指令、目標(biāo)圖像和 RoVI 三種指令方法的操作性能。模擬實(shí)驗(yàn)將我們的方法與在 Open X-Embodiment 數(shù)據(jù)集上訓(xùn)練的端到端、基于語(yǔ)言條件的視覺語(yǔ)言動(dòng)作模型 RT-1-X 和 Octo 進(jìn)行評(píng)估比較,Octo 還支持目標(biāo)圖像輸入模式。實(shí)驗(yàn)設(shè)置采用與它們訓(xùn)練集相同的機(jī)械臂和背景,并在雜亂環(huán)境中設(shè)置新任務(wù)以測(cè)試泛化能力。
-
定量分析:這三個(gè)任務(wù)在雜亂環(huán)境中執(zhí)行,語(yǔ)言和目標(biāo)圖像輸入在這種環(huán)境下都面臨重大挑戰(zhàn)。特別是長(zhǎng)時(shí)任務(wù),在這種條件下幾乎無(wú)法完成。然而,我們的方法表現(xiàn)異常出色。這些結(jié)果表明,端到端的視覺語(yǔ)言動(dòng)作(VLA)模型在泛化到新任務(wù)方面存在困難,而我們的方法展示了強(qiáng)大的泛化能力,其在模擬中的性能與真實(shí)世界的結(jié)果緊密對(duì)齊。
-
定性研究:為了研究 RoVI 的潛在能力,我們進(jìn)一步與自然語(yǔ)言和目標(biāo)圖像條件策略進(jìn)行定性比較。如圖 8 所示,RoVI 是唯一一種能夠有效傳達(dá)路徑信息和最終狀態(tài)的指令格式。相比之下,目標(biāo)圖像策略在最終狀態(tài)方面表現(xiàn)良好,但在描述運(yùn)動(dòng)路徑方面存在不足。對(duì)于像 RT-X 和 Octo 這樣的方法,生成的路徑和最終狀態(tài)缺乏一致性,并且空間精度有限。在評(píng)估的示例中,RoVI 在時(shí)空對(duì)齊方面顯示出明顯的優(yōu)勢(shì)。
RoVI 在現(xiàn)代視覺語(yǔ)言模型中的理解情況
-
評(píng)估指標(biāo):我們采用上下文學(xué)習(xí)和零樣本方法,評(píng)估視覺語(yǔ)言模型在新任務(wù)和環(huán)境中從 RoVI 提取語(yǔ)義含義的能力(上下文學(xué)習(xí)詳情見補(bǔ)充材料)。通過使用人類反饋評(píng)估語(yǔ)言響應(yīng)準(zhǔn)確性,來衡量 “任務(wù)與規(guī)劃” 成功率。評(píng)估分 “任務(wù)” 和 “規(guī)劃” 兩部分,“任務(wù)” 評(píng)估模型對(duì)任務(wù)定義的理解,“規(guī)劃” 評(píng)估模型分解復(fù)雜 RoVI 任務(wù)的推理能力,每個(gè)任務(wù)進(jìn)行 10 次試驗(yàn)。將訓(xùn)練的模型與 GPT4o、Gemini-1.5 Pro 等大規(guī)模模型,以及 InternLM-XComposer2-VL-7B 等較小規(guī)模模型進(jìn)行比較。
-
結(jié)果:表 2 表明,先進(jìn)的大型模型(Gemini、GPT-4o、Claude)即便未在專家數(shù)據(jù)集訓(xùn)練,也能通過上下文學(xué)習(xí)較好地理解 RoVI 條件下的操作任務(wù)。參數(shù)少于 130 億的模型則難以有效理解。模擬和真實(shí)測(cè)試中,GPT-4o 整體表現(xiàn)最佳,且相比在 RoVI Book 數(shù)據(jù)集訓(xùn)練的 LLaVA-13B 等較小模型,先進(jìn)大型模型在 RoVI 理解上泛化性更強(qiáng)。不過,任務(wù)步驟增多時(shí),大型模型理解準(zhǔn)確率會(huì)降低。而在 RoVI Book 數(shù)據(jù)集訓(xùn)練的 LLaVA-13B 在長(zhǎng)序列任務(wù) 8 中表現(xiàn)出色,證明該數(shù)據(jù)集對(duì)學(xué)習(xí) RoVI 條件下的多步任務(wù)有效。
- 錯(cuò)誤分析:值得注意的是,在 RoVI Book 上訓(xùn)練的 LLaVA13B 在任務(wù)和規(guī)劃預(yù)測(cè)中的成功率較低,但在動(dòng)作執(zhí)行方面表現(xiàn)出色。結(jié)合圖 9,我們可以得出結(jié)論,執(zhí)行函數(shù)映射動(dòng)作和序列錯(cuò)誤,使其不受感知錯(cuò)誤的影響。在 RoVI Book 上訓(xùn)練后,與執(zhí)行函數(shù)相關(guān)的錯(cuò)誤顯著減少。
消融研究
- 繪圖方式:類似于語(yǔ)言提示通常需要 “提示工程”,自由形式的繪圖可能會(huì)表現(xiàn)出顯著的可變性。手繪指令引發(fā)了另一個(gè)問題:我們?nèi)绾蝺?yōu)化繪圖風(fēng)格以增強(qiáng)模型理解?在本節(jié)中,我們將繪圖風(fēng)格分為兩個(gè)不同的類別進(jìn)行比較,以研究它們對(duì)視覺語(yǔ)言模型推理性能的影響。相應(yīng)的可視化和實(shí)驗(yàn)如圖 10 和表 3 所示。我們的發(fā)現(xiàn)表明,更結(jié)構(gòu)化的幾何風(fēng)格能帶來更好的理解效果。
- 關(guān)鍵點(diǎn)模塊:我們?cè)u(píng)估所提出的、由訓(xùn)練的 YOLOv8 模型構(gòu)成的關(guān)鍵點(diǎn)模塊,在四個(gè)不同 RoVI 任務(wù)中生成空間約束的能力。將其與三個(gè)流行的開放詞匯檢測(cè)模型對(duì)比,采用兩種策略:(1)手動(dòng)輸入目標(biāo)語(yǔ)義信息作為文本提示;(2)識(shí)別定位箭頭組件(箭頭頭部和尾部)。評(píng)估的兩個(gè)主要指標(biāo)為:以像素為單位測(cè)量的歐幾里得距離誤差,用以評(píng)估精度;50 像素閾值下的平均精度均值(mAP),用以衡量準(zhǔn)確性。表 4 中的結(jié)果表明,盡管關(guān)鍵點(diǎn)模塊的參數(shù)規(guī)模較小,但與基于 Transformer 的開放詞匯檢測(cè)模型相比,它能夠更有效地直接從像素空間中提取與任務(wù)相關(guān)的關(guān)鍵點(diǎn)。補(bǔ)充材料中提供了其他限制和詳細(xì)信息。
總結(jié)
我們提出了用戶友好且空間精確的 RoVI,用以指導(dǎo)機(jī)器人任務(wù),替代自然語(yǔ)言;開發(fā)了視覺指令實(shí)體化工作流程(VIEW),在雜亂環(huán)境和長(zhǎng)時(shí)任務(wù)中展現(xiàn)出強(qiáng)大的泛化性和魯棒性;創(chuàng)建了用于微調(diào)視覺語(yǔ)言模型的數(shù)據(jù)集,以更好理解 RoVI 并為邊緣設(shè)備部署做準(zhǔn)備。未來的研究將集中擴(kuò)大 RoVI Book 數(shù)據(jù)集規(guī)模,收集更多種類的自由形式手繪指令,使模型廣泛理解人類用視覺符號(hào)傳達(dá)動(dòng)態(tài)運(yùn)動(dòng)的一般原則;高效地訓(xùn)練較小規(guī)模(如 70 億參數(shù)規(guī)模)的模型,助力在機(jī)器人系統(tǒng)中部署邊緣設(shè)備。