午夜精品区一区二区三_日日摸日日碰夜夜爽无_久久青青草原_在线看的av_我想看国产一级毛片_中文无码vr最新无码av专区

系列解讀 | 行業(yè)首次,具身智能有了類似自動(dòng)駕駛的演進(jìn)路線 發(fā)布時(shí)間:2024-09-14 19:46:00

      機(jī)器人正以前所未有的速度進(jìn)入大眾視野,近期世界機(jī)器人大會(huì)WRC盛況再次印證了這一趨勢(shì),各式各樣的機(jī)器人集中亮相、大顯神通,得益于“聰明的大腦”,它們有望逐步進(jìn)入工廠、商超、甚至家庭等,幫助人類或獨(dú)立完成各種各樣的任務(wù)。




01

具身大模型驅(qū)動(dòng)機(jī)器人進(jìn)化


      這里“聰明的大腦”,指的是大模型,更準(zhǔn)確來說,是具身大模型。


      當(dāng)前大模型可以劃分為兩大類別:非具身大模型和具身大模型。


      非具身大模型:以ChatGPT、GPT-4V、Sora、GPT-4o為代表,這類模型的主要特點(diǎn)是輸入從單模態(tài)文本擴(kuò)展到多模態(tài)的語音、圖像、視頻,其輸出也包括了文本、音頻、圖像、視頻等,面向的是人類。這些大模型功能強(qiáng)大,但并不直接針對(duì)機(jī)器人領(lǐng)域,更多還是在人機(jī)交互、內(nèi)容生成等方面展現(xiàn)價(jià)值。


      具身大模型:相比之下,具身大模型則直接面向機(jī)器人,核心特點(diǎn)對(duì)物理世界的感知或接收人類指令后,機(jī)器人能夠直接高頻輸出動(dòng)作。自動(dòng)駕駛大模型(如特斯拉FSD)是最典型的代表,汽車通過實(shí)時(shí)接收視覺信號(hào)(主要是圖像)的輸入,可以直接控制汽車方向盤、踏板等機(jī)構(gòu),實(shí)現(xiàn)自動(dòng)駕駛功能。




t2.png




      機(jī)器人作為更復(fù)雜的物理系統(tǒng),機(jī)器人具身大模型的輸入不僅包括實(shí)時(shí)視覺信號(hào),還涉及到人類語言、觸覺等多種模態(tài),其動(dòng)作空間的自由度也更高,還需要全身各部位(底盤、腿、手臂、手指等)的協(xié)同運(yùn)動(dòng)。





02

業(yè)界代表:谷歌RT-2


      谷歌RT-2是機(jī)器人大模型的代表,RT-2是一個(gè)端到端的具身大模型,它將機(jī)器人的感知、理解、決策、規(guī)劃、動(dòng)作等融為一體,能夠在開放的環(huán)境中機(jī)器人可以直接輸出動(dòng)作。


      在谷歌山景城辦公室的廚房測(cè)試中,RT-2展現(xiàn)了極高的任務(wù)執(zhí)行成功率(近98%),但是,這一成績(jī)的背后也暴露出RT-2端到端大模型面臨的挑戰(zhàn)。


      首先,泛化性是一大難題。RT-2在特定廚房環(huán)境中的高成功率,一旦換到施工工地、嘈雜后廚等復(fù)雜場(chǎng)景,成功率便驟降至30%左右。


      盡管谷歌為此組建了一個(gè)16人的團(tuán)隊(duì),用13個(gè)機(jī)器人,花了17個(gè)月的時(shí)間,采集到了13萬條數(shù)據(jù),這些數(shù)據(jù)覆蓋了移動(dòng)、抓取、放下這些移動(dòng)場(chǎng)景中很多任務(wù),耗資了上千萬美金。這表明,RT-2在數(shù)據(jù)規(guī)模和模型泛化上仍存在局限。


      其次,這種端到端具身大模型的反應(yīng)速度及運(yùn)動(dòng)頻率也是一大挑戰(zhàn)。RT-2等輸出運(yùn)動(dòng)頻率僅能達(dá)到1-3Hz,使得機(jī)器人的反射弧長(zhǎng)達(dá)0.3秒甚至1秒,遠(yuǎn)遠(yuǎn)低于人類和許多實(shí)際應(yīng)用場(chǎng)景的需求。


      這表明當(dāng)前機(jī)器人具身大模型還存在諸多不確定性,需要在數(shù)據(jù)采集、模型訓(xùn)練等各個(gè)層面探索新的思路和方法,特別針對(duì)具身大模型的發(fā)展路徑上需要有一個(gè)指引。





03

自動(dòng)駕駛的啟示


      可以從自動(dòng)駕駛和人腦機(jī)制中獲得一些靈感。


      首先是自動(dòng)駕駛,自動(dòng)駕駛L1-L5技術(shù)演進(jìn)路線為機(jī)器人提供了兩種可能的路徑:


      一是以谷歌母公司Alphabet旗下Waymo的“一步到位”或者“跨越式”路線,全力擁抱L4+高級(jí)別自動(dòng)駕駛技術(shù);二是以特斯拉為代表的“漸進(jìn)式路線”,它的思路是在量產(chǎn)車上優(yōu)先搭載L2/L3級(jí)輔助駕駛,低成本收集數(shù)據(jù),訓(xùn)練算法迭代技術(shù),最終做到L4/L5。


      當(dāng)前Waymo路線似乎是遙遙無期,特斯拉的FSD離商用落地越來越近。


      對(duì)于機(jī)器人而言,或許可以借鑒特斯拉的漸進(jìn)式思路,先解決部分場(chǎng)景下的應(yīng)用問題,再逐步向通用化邁進(jìn)。


      其次,人腦的雙系統(tǒng)機(jī)制(系統(tǒng)一的快思考與系統(tǒng)二的慢思考)也能為我們提供了有益的啟示。人腦有系統(tǒng)一和系統(tǒng)二,有快思考和慢思考,前者是小腦的能力,對(duì)應(yīng)機(jī)器人里交互控制、靈巧操作等技能,可以依靠小模型來處理;后者更多是大腦的能力,包括認(rèn)知、理解、規(guī)劃等,可以用大模型解決。


      上層大模型和下層小模型相互結(jié)合,這種分層架構(gòu)不僅有助于提升機(jī)器人的反應(yīng)速度和運(yùn)動(dòng)頻率,還能增強(qiáng)系統(tǒng)的靈活性和可擴(kuò)展性,有可能更快通向通用機(jī)器人。





04

機(jī)器人大腦演進(jìn)路線新方案


      無獨(dú)有偶,國(guó)內(nèi)頭部機(jī)器人公司智元,近期在其年度新品發(fā)布會(huì)上,發(fā)布了具身智能G1~G5技術(shù)路線圖,這也是行業(yè)首次對(duì)具身智能技術(shù)發(fā)展有了清晰的定義。




t3.png




     這一路線圖借鑒了自動(dòng)駕駛的等級(jí)劃分思路,將具身智能技術(shù)的發(fā)展分為五個(gè)階段:


G1階段:基礎(chǔ)自動(dòng)化階段。基于簡(jiǎn)單的機(jī)器視覺加上人工程序化編程,這一階段的機(jī)器人系統(tǒng)設(shè)計(jì)和配置都針對(duì)特定的應(yīng)用需求,缺乏泛化能力。


G2階段:通過抽象出可復(fù)用的原子技能,機(jī)器人可以實(shí)現(xiàn)一定程度上的場(chǎng)景遷移和泛化。這一階段的機(jī)器人已經(jīng)能夠基于大語言模型(任務(wù)編排大模型)進(jìn)行任務(wù)編排,具備一定的智能水平。


G3階段:端到端智能化系統(tǒng)的初步實(shí)現(xiàn)。在這一階段,機(jī)器人將從傳感器數(shù)據(jù)直接學(xué)習(xí)并生成控制指令,并形成了一套通用的技能訓(xùn)練框架,上層的任務(wù)編排大模型逐步演變?yōu)檎J(rèn)知推理規(guī)劃大模型。與G2階段相比,G3最大的區(qū)別在于其原子能力不再依賴于手工設(shè)計(jì),而是通過大量數(shù)據(jù)采集和端到端訓(xùn)練獲得,并逐步形成了一個(gè)個(gè)小模型。這種數(shù)據(jù)驅(qū)動(dòng)的方法減少了人工干預(yù),顯著提高了系統(tǒng)的泛化能力。在G3階段,機(jī)器人將能夠更靈活地適應(yīng)不同場(chǎng)景和任務(wù),通過持續(xù)學(xué)習(xí)不斷優(yōu)化自身性能。


G4階段:通用操作大模型的誕生。在這一階段,隨著數(shù)據(jù)量不斷增加,機(jī)器人將不再局限于單一技能的訓(xùn)練和優(yōu)化,而是能夠跨越不同任務(wù)領(lǐng)域,實(shí)現(xiàn)技能之間的關(guān)聯(lián)和融合。例如,擰瓶蓋和開門把手的技能在底層可能共享相似的動(dòng)作模式,通過模型的訓(xùn)練,機(jī)器人能夠理解這些技能之間的內(nèi)在聯(lián)系,并生成更加高效、通用的操作策略,即一個(gè)個(gè)小模型會(huì)泛化為通用操作大模型。通用操作大模型的出現(xiàn)將極大地提升機(jī)器人在復(fù)雜任務(wù)中的表現(xiàn),使它們能夠像人類一樣靈活應(yīng)對(duì)各種挑戰(zhàn)。


G5階段:邁向人工通用智能(AGI)的終極目標(biāo)。在這一階段,認(rèn)知推理規(guī)劃大模型和通用操作大模型將實(shí)現(xiàn)深度融合,形成一個(gè)真正的感知、決策、執(zhí)行的端到端大模型。這個(gè)模型將具備跨任務(wù)的泛化能力,能夠在不同場(chǎng)景和任務(wù)中自由切換,實(shí)現(xiàn)高度智能化的自主作業(yè)。G5階段的機(jī)器人將不再是簡(jiǎn)單的工具或設(shè)備,而是能夠與人類共同工作、相互協(xié)作的智能伙伴。它們將能夠理解人類的意圖和需求,提供個(gè)性化的服務(wù)和支持;同時(shí),它們也將能夠自我學(xué)習(xí)和進(jìn)化,不斷適應(yīng)新的環(huán)境和任務(wù)。這樣的機(jī)器人將極大地改變我們的生活方式和工作模式,推動(dòng)社會(huì)向更加智能、高效、和諧的方向發(fā)展。


      從具身大模型的興起,到谷歌RT-2等前沿項(xiàng)目的探索與挑戰(zhàn),再到智元機(jī)器人G1~G5技術(shù)路線圖的清晰規(guī)劃,每一步都預(yù)示著機(jī)器人技術(shù)正朝著更加智能、靈活、通用的方向邁進(jìn)。


      未來,隨著數(shù)據(jù)量的爆炸性增長(zhǎng)、算法模型的持續(xù)優(yōu)化以及跨學(xué)科技術(shù)的深度融合,機(jī)器人將不再局限于單一任務(wù)的執(zhí)行,而是能夠像人類一樣具備多任務(wù)處理、自主學(xué)習(xí)和適應(yīng)復(fù)雜環(huán)境的能力。




主站蜘蛛池模板: 亚洲一区二区三区欧美 | 国产一级毛片高清视频 | 国产伦精品一区三区视频 | 国产区一区二区三在线观看 | 国产精品国语自产拍在线观看 | 天天看片夜夜爽 | 99久久国产露脸精品竹菊传媒 | 久久亚洲国产精品一区二区 | 亚洲色图偷 | 国产毛片a高清日本在线 | www.xxx.com国产 | 一区二区三区中文 | 一级黄色国产视频 | asian成熟肉图pics | 一区二区三区成人久久爱 | AV中文字幕一区人妻 | 日本免费一级高清婬日本片 | 国产精品91一区 | 色婷婷av一本二本三本浪潮 | 精品国模一区二区三区浪潮 | 国产AV无码专区亚洲AV | 国产精品人妻熟女毛片av久久 | 噜噜噜视频在线观看 | 好屌视频一区二区三区 | 最近免费中文字幕mv免费高清 | 91免费片| 久热中文字幕在线精品观 | 黑人黄色片 | 高清第一次出血欧美 | 91精品国产乱码久久久久久久久 | 高潮迭起av乳颜射后入 | 国产女主播精品大秀系列 | 精品久久久久免费影院的功能介绍 | 国产精品日本一区二区在线播放 | 国内一区二区三区 | 国产午夜精品一区二区三区四区 | 69xxxx在线观看 | 欧美视频1区 | 日本特黄a级高清免费大片 一区二区不卡 | 99在线免费观看 | 超碰个人在线观看 |