3、VLA(視覺-語(yǔ )言(yán )-動(dòng )作模型)是在具身智能研(yán )究中產(chǎn)生的一種多模態(tài)模型,用于處理具(jù )身智能系統(tǒng)所(suǒ )面對語言條件機器(qì )人任(rèn )務(wù)。谷歌(gē ) DeepMind 在 2023 年 7 月發(fā)布的(de ) RT-2 被認為是首個 VLA,而后(hòu )這種概念在具身智能、機器人和智駕(jià )領(lǐng)域中迅速擴散。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利