很多朋友不知道【小米開(kāi)源首代機器人VLA大模型 消費級顯卡可實(shí)時(shí)推理】,今天小綠就為大家解答一下。
為兼顧模型的常識理解與實(shí)操能力,小米設計了跨模態(tài)預訓練和后訓練的兩階段訓練體系??缒B(tài)預訓練通過(guò)Action Proposal機制對齊VLM特征與動(dòng)作空間,再凍結VLM專(zhuān)注訓練DiT,讓模型在學(xué)會(huì )操作的同時(shí)保留物體檢測、邏輯推理等能力;后訓練則采用異步推理模式解決真機“動(dòng)作斷層”問(wèn)題,搭配Clean Action Prefix和Λ-shape Attention Mask技術(shù),既保證動(dòng)作軌跡的連續流暢,又讓模型更關(guān)注實(shí)時(shí)視覺(jué)反饋,提升對環(huán)境變化的響應能力。

據CNMO了解,現有VLA模型雖憑借大規模參數擁有出色的泛化能力,但龐大的推理延遲讓機器人在真實(shí)物理世界中反應遲鈍。小米此次推出的Xiaomi-Robotics-0從架構設計入手實(shí)現突破,其采用MoT混合架構打造“大腦 + 小腦”雙核心體系,以多模態(tài)VLM大模型為視覺(jué)語(yǔ)言大腦,可理解人類(lèi)模糊指令并捕捉高清視覺(jué)中的空間關(guān)系;同時(shí)嵌入多層DiT作為動(dòng)作執行小腦,通過(guò)生成“動(dòng)作塊”結合流匹配技術(shù),保障機器人動(dòng)作的高頻與精準,實(shí)現物理靈活性的大幅提升。【CNMO科技消息】2月12日,小米正式對外發(fā)布并開(kāi)源首款機器人VLA大模型Xiaomi-Robotics-0。該模型擁有47億參數,兼具視覺(jué)語(yǔ)言理解與高性能實(shí)時(shí)執行能力,可在消費級顯卡上實(shí)現實(shí)時(shí)推理,一舉破解傳統VLA模型推理延遲的行業(yè)痛點(diǎn),在具身智能領(lǐng)域刷新多項SOTA紀錄。版權所有,未經(jīng)許可不得轉載
目前,小米已正式開(kāi)源該模型的技術(shù)主頁(yè)、代碼及模型權重,秉持開(kāi)源理念推動(dòng)具身智能技術(shù)的行業(yè)發(fā)展,同時(shí)小米機器人團隊也開(kāi)啟人才招募,邀請行業(yè)人士共同探索物理智能的邊界。
以上問(wèn)題已經(jīng)回答了。如果你想了解更多,請關(guān)
新經(jīng)網(wǎng)網(wǎng)站 (
http://m.hkkqyy120.com/)