91在线看免费,免费看男女高潮又爽又猛视,xxxxhd中国

系列解讀 | 行業(yè)首次，具身智能有了類似自動駕駛的演進路線 發(fā)布時間：2024-09-14 19:46:00

機器人正以前所未有的速度進入大眾視野，近期世界機器人大會WRC盛況再次印證了這一趨勢，各式各樣的機器人集中亮相、大顯神通，得益于“聰明的大腦”，它們有望逐步進入工廠、商超、甚至家庭等，幫助人類或獨立完成各種各樣的任務。

具身大模型驅(qū)動機器人進化

這里“聰明的大腦”，指的是大模型，更準確來說，是具身大模型。

當前大模型可以劃分為兩大類別：非具身大模型和具身大模型。

非具身大模型：以ChatGPT、GPT-4V、Sora、GPT-4o為代表，這類模型的主要特點是輸入從單模態(tài)文本擴展到多模態(tài)的語音、圖像、視頻，其輸出也包括了文本、音頻、圖像、視頻等，面向的是人類。這些大模型功能強大，但并不直接針對機器人領(lǐng)域，更多還是在人機交互、內(nèi)容生成等方面展現(xiàn)價值。

具身大模型：相比之下，具身大模型則直接面向機器人，核心特點對物理世界的感知或接收人類指令后，機器人能夠直接高頻輸出動作。自動駕駛大模型（如特斯拉FSD）是最典型的代表，汽車通過實時接收視覺信號（主要是圖像）的輸入，可以直接控制汽車方向盤、踏板等機構(gòu)，實現(xiàn)自動駕駛功能。

機器人作為更復雜的物理系統(tǒng)，機器人具身大模型的輸入不僅包括實時視覺信號，還涉及到人類語言、觸覺等多種模態(tài)，其動作空間的自由度也更高，還需要全身各部位（底盤、腿、手臂、手指等）的協(xié)同運動。

業(yè)界代表：谷歌RT-2

谷歌RT-2是機器人大模型的代表，RT-2是一個端到端的具身大模型，它將機器人的感知、理解、決策、規(guī)劃、動作等融為一體，能夠在開放的環(huán)境中機器人可以直接輸出動作。

在谷歌山景城辦公室的廚房測試中，RT-2展現(xiàn)了極高的任務執(zhí)行成功率（近98%），但是，這一成績的背后也暴露出RT-2端到端大模型面臨的挑戰(zhàn)。

首先，泛化性是一大難題。RT-2在特定廚房環(huán)境中的高成功率，一旦換到施工工地、嘈雜后廚等復雜場景，成功率便驟降至30%左右。

盡管谷歌為此組建了一個16人的團隊，用13個機器人，花了17個月的時間，采集到了13萬條數(shù)據(jù)，這些數(shù)據(jù)覆蓋了移動、抓取、放下這些移動場景中很多任務，耗資了上千萬美金。這表明，RT-2在數(shù)據(jù)規(guī)模和模型泛化上仍存在局限。

其次，這種端到端具身大模型的反應速度及運動頻率也是一大挑戰(zhàn)。RT-2等輸出運動頻率僅能達到1-3Hz，使得機器人的反射弧長達0.3秒甚至1秒，遠遠低于人類和許多實際應用場景的需求。

這表明當前機器人具身大模型還存在諸多不確定性，需要在數(shù)據(jù)采集、模型訓練等各個層面探索新的思路和方法，特別針對具身大模型的發(fā)展路徑上需要有一個指引。

自動駕駛的啟示

可以從自動駕駛和人腦機制中獲得一些靈感。

首先是自動駕駛，自動駕駛L1-L5技術(shù)演進路線為機器人提供了兩種可能的路徑：

一是以谷歌母公司Alphabet旗下Waymo的“一步到位”或者“跨越式”路線，全力擁抱L4+高級別自動駕駛技術(shù)；二是以特斯拉為代表的“漸進式路線”，它的思路是在量產(chǎn)車上優(yōu)先搭載L2/L3級輔助駕駛，低成本收集數(shù)據(jù)，訓練算法迭代技術(shù)，最終做到L4/L5。

當前Waymo路線似乎是遙遙無期，特斯拉的FSD離商用落地越來越近。

對于機器人而言，或許可以借鑒特斯拉的漸進式思路，先解決部分場景下的應用問題，再逐步向通用化邁進。

其次，人腦的雙系統(tǒng)機制（系統(tǒng)一的快思考與系統(tǒng)二的慢思考）也能為我們提供了有益的啟示。人腦有系統(tǒng)一和系統(tǒng)二，有快思考和慢思考，前者是小腦的能力，對應機器人里交互控制、靈巧操作等技能，可以依靠小模型來處理；后者更多是大腦的能力，包括認知、理解、規(guī)劃等，可以用大模型解決。

上層大模型和下層小模型相互結(jié)合，這種分層架構(gòu)不僅有助于提升機器人的反應速度和運動頻率，還能增強系統(tǒng)的靈活性和可擴展性，有可能更快通向通用機器人。

機器人大腦演進路線新方案

無獨有偶，國內(nèi)頭部機器人公司智元，近期在其年度新品發(fā)布會上，發(fā)布了具身智能G1~G5技術(shù)路線圖，這也是行業(yè)首次對具身智能技術(shù)發(fā)展有了清晰的定義。

這一路線圖借鑒了自動駕駛的等級劃分思路，將具身智能技術(shù)的發(fā)展分為五個階段：

G1階段：基礎(chǔ)自動化階段。基于簡單的機器視覺加上人工程序化編程，這一階段的機器人系統(tǒng)設計和配置都針對特定的應用需求，缺乏泛化能力。

G2階段：通過抽象出可復用的原子技能，機器人可以實現(xiàn)一定程度上的場景遷移和泛化。這一階段的機器人已經(jīng)能夠基于大語言模型（任務編排大模型）進行任務編排，具備一定的智能水平。

G3階段：端到端智能化系統(tǒng)的初步實現(xiàn)。在這一階段，機器人將從傳感器數(shù)據(jù)直接學習并生成控制指令，并形成了一套通用的技能訓練框架，上層的任務編排大模型逐步演變?yōu)檎J知推理規(guī)劃大模型。與G2階段相比，G3最大的區(qū)別在于其原子能力不再依賴于手工設計，而是通過大量數(shù)據(jù)采集和端到端訓練獲得，并逐步形成了一個個小模型。這種數(shù)據(jù)驅(qū)動的方法減少了人工干預，顯著提高了系統(tǒng)的泛化能力。在G3階段，機器人將能夠更靈活地適應不同場景和任務，通過持續(xù)學習不斷優(yōu)化自身性能。

G4階段：通用操作大模型的誕生。在這一階段，隨著數(shù)據(jù)量不斷增加，機器人將不再局限于單一技能的訓練和優(yōu)化，而是能夠跨越不同任務領(lǐng)域，實現(xiàn)技能之間的關(guān)聯(lián)和融合。例如，擰瓶蓋和開門把手的技能在底層可能共享相似的動作模式，通過模型的訓練，機器人能夠理解這些技能之間的內(nèi)在聯(lián)系，并生成更加高效、通用的操作策略，即一個個小模型會泛化為通用操作大模型。通用操作大模型的出現(xiàn)將極大地提升機器人在復雜任務中的表現(xiàn)，使它們能夠像人類一樣靈活應對各種挑戰(zhàn)。

G5階段：邁向人工通用智能（AGI）的終極目標。在這一階段，認知推理規(guī)劃大模型和通用操作大模型將實現(xiàn)深度融合，形成一個真正的感知、決策、執(zhí)行的端到端大模型。這個模型將具備跨任務的泛化能力，能夠在不同場景和任務中自由切換，實現(xiàn)高度智能化的自主作業(yè)。G5階段的機器人將不再是簡單的工具或設備，而是能夠與人類共同工作、相互協(xié)作的智能伙伴。它們將能夠理解人類的意圖和需求，提供個性化的服務和支持；同時，它們也將能夠自我學習和進化，不斷適應新的環(huán)境和任務。這樣的機器人將極大地改變我們的生活方式和工作模式，推動社會向更加智能、高效、和諧的方向發(fā)展。

從具身大模型的興起，到谷歌RT-2等前沿項目的探索與挑戰(zhàn)，再到智元機器人G1~G5技術(shù)路線圖的清晰規(guī)劃，每一步都預示著機器人技術(shù)正朝著更加智能、靈活、通用的方向邁進。

未來，隨著數(shù)據(jù)量的爆炸性增長、算法模型的持續(xù)優(yōu)化以及跨學科技術(shù)的深度融合，機器人將不再局限于單一任務的執(zhí)行，而是能夠像人類一樣具備多任務處理、自主學習和適應復雜環(huán)境的能力。

上一篇

下一篇

午夜精品区一区二区三_日日摸日日碰夜夜爽无_久久青青草原_在线看的av_我想看国产一级毛片_中文无码vr最新无码av专区

遠征A2旗艦版

遠征A2青春版

智元遠征A2-W

智元靈犀X1

智元靈犀 X2

D1Ultra

D1 Pro/Edu

智元精靈G1

具身智能一站式開發(fā)平臺

具身智能全棧數(shù)采方案

數(shù)據(jù)服務

智元絕塵C5

OmniHand 靈動款 2025

OmniHand 專業(yè)款 2025

VR遙操作套裝

夏瀾

Menu

首頁

產(chǎn)品

開源

智元商城

新聞資訊

關(guān)于我們

招賢納?

聯(lián)系我們

公司新聞

智元遠征A2成全球首個同時擁有中美歐認證...

靈動有生命，親和全智能 | 智元靈犀X2...

世界模型新突破！智元機器人開源EVAC框...