99国产精品久久99久久久,久久久精品欧美一区二区免费,欧美精品一区二区三区免费视频

技術(shù)解讀丨RoboDual：行業(yè)首款通用具身操作的雙系統(tǒng)協(xié)同框架誕生 發(fā)布時(shí)間：2024-10-22 13:00:00

近日，智元機(jī)器人攜手上海人工智能實(shí)驗(yàn)室，成功打造了行業(yè)首款通用具身操作的雙系統(tǒng)協(xié)同框架——RoboDual。

這一創(chuàng)新成果將Generalist（通才）的廣泛適應(yīng)性也就是泛化能力，和Specialist（專才）的高效精準(zhǔn)性完美融合，顯著增強(qiáng)了機(jī)器人操作的靈活性和準(zhǔn)確性。

在傳統(tǒng)的具身智能機(jī)器人系統(tǒng)中，“大腦”負(fù)責(zé)環(huán)境理解、任務(wù)規(guī)劃和決策，推理能力出眾但實(shí)操效率不高；而“小腦”則專注于運(yùn)動(dòng)規(guī)劃和控制，操作能力強(qiáng)但泛化能力有限。兩者通常各自為戰(zhàn)，難以實(shí)現(xiàn)協(xié)同作業(yè)。

智元機(jī)器人與上海人工智能實(shí)驗(yàn)室創(chuàng)新性地研發(fā)出RoboDual雙系統(tǒng)協(xié)同框架，利用“小腦”低延遲、高精度、訓(xùn)練高效的優(yōu)勢(shì)來彌補(bǔ)“大腦”實(shí)操效率低下的不足。該框架直接部署在機(jī)器人邊緣側(cè)進(jìn)行高效推理，“大小腦”交替執(zhí)行任務(wù)。這種設(shè)計(jì)不僅提高了操作精度和降低了延遲，還大幅提升了場(chǎng)景和指令的泛化能力。同時(shí)，在單個(gè)任務(wù)或場(chǎng)景的微調(diào)上也更加高效，并在各項(xiàng)常見評(píng)測(cè)指標(biāo)上超越了通才和專才模型。

下面讓我們一起看下RoboDual系統(tǒng)的技術(shù)表現(xiàn)。

構(gòu)建通用且泛化的操作策略一直是機(jī)器人領(lǐng)域的核心目標(biāo)。傳統(tǒng)的機(jī)器人學(xué)習(xí)方法通常針對(duì)特定機(jī)器人和任務(wù)來開發(fā)模仿學(xué)習(xí)算法，例如ACT和Diffusion Policy，這些方法在特定場(chǎng)景中表現(xiàn)出色，但在泛化能力上較為有限。隨著機(jī)器人在開放、多任務(wù)環(huán)境中的應(yīng)用增加，能夠適應(yīng)不同任務(wù)和機(jī)器人構(gòu)型的系統(tǒng)需求也在上升，這促使了通用模型的發(fā)展，如RT-2和OpenVLA等。這些模型通過大規(guī)模、異構(gòu)的數(shù)據(jù)集提升跨域泛化能力，旨在將普遍知識(shí)融入到機(jī)器人控制中。

雖然基于 VLA 的通用策略在不同場(chǎng)景中表現(xiàn)出很強(qiáng)的泛化性，但其仍存在一些局限：

·目前預(yù)訓(xùn)練好的模型仍不具備zero-shot的遷移能力，而對(duì)現(xiàn)有大模型直接微調(diào)需要足夠的訓(xùn)練數(shù)據(jù)和算力。因此我們需要更高效的路徑來快速適配（adapt）到新場(chǎng)景或新機(jī)器人本體；

·以O(shè)penVLA為例，這類大模型的參數(shù)量龐大，并以自回歸的方式預(yù)測(cè)每個(gè)自由度的動(dòng)作輸出，推理延遲高（<5Hz)，很難對(duì)一些動(dòng)態(tài)場(chǎng)景做實(shí)時(shí)響應(yīng)，也難以實(shí)現(xiàn)需要精細(xì)位置控制的操作任務(wù)；

·當(dāng)前的通用模型僅能處理單幀的 RGB 輸入，雖然這允許它們可以通過更大規(guī)模的（非機(jī)器人操作）數(shù)據(jù)集進(jìn)行訓(xùn)練，但在深度信息或觸覺反饋等額外傳感器輸入對(duì)機(jī)器人操作任務(wù)至關(guān)重要的情況下，很難靈活擴(kuò)展輸入模態(tài)以提高性能。

RoboDual整體框架結(jié)構(gòu)

我們發(fā)現(xiàn)，在具身走向通用的路徑中，專用策略（Specialist Policy）低延遲、高精度、訓(xùn)練高效的特點(diǎn)剛好可以彌補(bǔ)當(dāng)前通用模型（Generalist Policy）的劣勢(shì)，于是團(tuán)隊(duì)提出了RoboDual工作，將Generalist的泛化能力和Specialist的精準(zhǔn)高效結(jié)合到一個(gè)協(xié)同工作框架中，不僅在操作時(shí)的精度更高、延遲更低，還具備更強(qiáng)的場(chǎng)景、指令的泛化能力，同時(shí)對(duì)于單個(gè)任務(wù)或場(chǎng)景的微調(diào)更加高效。

RoboDual模型框架

RoboDual中的Generalist部分參考基于Prismatic-7B VLM的OpenVLA架構(gòu)，以觀察的視頻幀與指令作為輸入，自回歸地生成action latents及相應(yīng)的離散動(dòng)作輸出，并將其傳到下游Specialist模型作為condition；Specialist部分采用可擴(kuò)展的Diffusion Transformer (DiT)架構(gòu)，接收多種傳感器（如RGB相機(jī)）輸入的同時(shí)，將Generalist的輸出作為參考，經(jīng)過去噪得到未來幾步的連續(xù)動(dòng)作。

同時(shí)，由于Generalist與Specialist的輸出頻率不同，為保證較低的控制延遲，Generalist與Specialist實(shí)行異步控制（即Generalist輸出一步時(shí)，Specialist輸出多步），在較慢，但更魯棒的Generalist輸出指引下，實(shí)現(xiàn)順滑且靈巧的動(dòng)作控制。在真機(jī)實(shí)驗(yàn)中，我們采用NVIDIA RTX 5000 Ada GPU進(jìn)行推理，RoboDual可以實(shí)現(xiàn)15Hz的控制頻率。

在大量仿真（CALVIN）及真機(jī)的實(shí)驗(yàn)發(fā)現(xiàn)，RoboDual均領(lǐng)先現(xiàn)有的Generalist和Specialist模仿學(xué)習(xí)方法，可以利用僅5%的數(shù)據(jù)實(shí)現(xiàn)任務(wù)和場(chǎng)景的高效適配。此外我們?cè)谡鏅C(jī)實(shí)驗(yàn)中還設(shè)計(jì)了眾多泛化場(chǎng)景，RoboDual在不失推理效率的同時(shí)實(shí)現(xiàn)了更優(yōu)的泛化性能。

真機(jī)任務(wù)及泛化實(shí)驗(yàn)

通過將RoboDual與OpenVLA進(jìn)行對(duì)比，可見RoboDual在同樣的泛化場(chǎng)景中保持了明顯更低的推理延遲。至此，RoboDual提供了一個(gè)讓通用操作大模型廣泛落地應(yīng)用的解決方案。

真機(jī)推理效率對(duì)比（與OpenVLA）

智元機(jī)器人與上海人工智能實(shí)驗(yàn)室共同研發(fā)的RoboDual系統(tǒng)，不僅提供了一個(gè)讓通用操作大模型廣泛落地應(yīng)用的解決方案，更為機(jī)器人技術(shù)的未來發(fā)展指明了方向。隨著RoboDual系統(tǒng)的不斷完善和應(yīng)用，我們希望它能為機(jī)器人操作領(lǐng)域帶來更高效、更精準(zhǔn)、更智能的未來。

上一篇

下一篇

午夜精品区一区二区三_日日摸日日碰夜夜爽无_久久青青草原_在线看的av_我想看国产一级毛片_中文无码vr最新无码av专区

遠(yuǎn)征A2旗艦版

遠(yuǎn)征A2青春版

智元遠(yuǎn)征A2-W

智元靈犀X1

智元靈犀 X2

D1Ultra

D1 Pro/Edu

智元精靈G1

具身智能一站式開發(fā)平臺(tái)

具身智能全棧數(shù)采方案

數(shù)據(jù)服務(wù)

智元絕塵C5

OmniHand 靈動(dòng)款 2025

OmniHand 專業(yè)款 2025

VR遙操作套裝

夏瀾

Menu

首頁

產(chǎn)品

開源

智元商城

新聞資訊

關(guān)于我們

招賢納?

聯(lián)系我們

公司新聞

智元遠(yuǎn)征A2成全球首個(gè)同時(shí)擁有中美歐認(rèn)證...

靈動(dòng)有生命，親和全智能 | 智元靈犀X2...

世界模型新突破！智元機(jī)器人開源EVAC框...