<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<sup id="oyiqi"></sup>

小米開(kāi)源首代機器人VLA大模型消費級顯卡可實(shí)時(shí)推理

2026-02-12 14:40:01 來(lái)源：新經(jīng)網(wǎng) 作者：馮思韻

很多朋友不知道【小米開(kāi)源首代機器人VLA大模型消費級顯卡可實(shí)時(shí)推理】，今天小綠就為大家解答一下。

為兼顧模型的常識理解與實(shí)操能力，小米設計了跨模態(tài)預訓練和后訓練的兩階段訓練體系?？缒B(tài)預訓練通過(guò)Action Proposal機制對齊VLM特征與動(dòng)作空間，再凍結VLM專(zhuān)注訓練DiT，讓模型在學(xué)會(huì )操作的同時(shí)保留物體檢測、邏輯推理等能力；后訓練則采用異步推理模式解決真機“動(dòng)作斷層”問(wèn)題，搭配Clean Action Prefix和Λ-shape Attention Mask技術(shù)，既保證動(dòng)作軌跡的連續流暢，又讓模型更關(guān)注實(shí)時(shí)視覺(jué)反饋，提升對環(huán)境變化的響應能力。

小米開(kāi)源首代機器人VLA大模型消費級顯卡可實(shí)時(shí)推理

據CNMO了解，現有VLA模型雖憑借大規模參數擁有出色的泛化能力，但龐大的推理延遲讓機器人在真實(shí)物理世界中反應遲鈍。小米此次推出的Xiaomi-Robotics-0從架構設計入手實(shí)現突破，其采用MoT混合架構打造“大腦 + 小腦”雙核心體系，以多模態(tài)VLM大模型為視覺(jué)語(yǔ)言大腦，可理解人類(lèi)模糊指令并捕捉高清視覺(jué)中的空間關(guān)系；同時(shí)嵌入多層DiT作為動(dòng)作執行小腦，通過(guò)生成“動(dòng)作塊”結合流匹配技術(shù)，保障機器人動(dòng)作的高頻與精準，實(shí)現物理靈活性的大幅提升。

【CNMO科技消息】2月12日，小米正式對外發(fā)布并開(kāi)源首款機器人VLA大模型Xiaomi-Robotics-0。該模型擁有47億參數，兼具視覺(jué)語(yǔ)言理解與高性能實(shí)時(shí)執行能力，可在消費級顯卡上實(shí)現實(shí)時(shí)推理，一舉破解傳統VLA模型推理延遲的行業(yè)痛點(diǎn)，在具身智能領(lǐng)域刷新多項SOTA紀錄。

版權所有，未經(jīng)許可不得轉載

目前，小米已正式開(kāi)源該模型的技術(shù)主頁(yè)、代碼及模型權重，秉持開(kāi)源理念推動(dòng)具身智能技術(shù)的行業(yè)發(fā)展，同時(shí)小米機器人團隊也開(kāi)啟人才招募，邀請行業(yè)人士共同探索物理智能的邊界。

以上問(wèn)題已經(jīng)回答了。如果你想了解更多，請關(guān)新經(jīng)網(wǎng)網(wǎng)站 (http://m.hkkqyy120.com/)

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<s id="m2ywt"><nav id="m2ywt"></nav></s><s id="m2ywt"><form id="m2ywt"></form></s>

<p id="m2ywt"><nav id="m2ywt"></nav></p>