从VLA到世界模型，具身智能加速“范式转移”

，20260220 12:07:57 陕西省白河县冷水镇 816

随着具身智能的向前发展，传统的 VLA 技术路线正在面临越来越多的挑战。所谓 VLA 模型，即视觉 - 语言 - 动作模型。它的技术逻辑可以简单描述为，将人类指令和外界多模态信息（声音、图像、视频）转化为计算机语言，继而控制机器人行为。但在 VLA 模型的训练中，互联网上的静态、非结构化文本和图像数据，并不是训练所需的核心数据。物理世界数据的稀缺与复杂性，成为了制约 VLA 模型能力跃升的主要瓶颈。VLA 之后，具身智能接下来将往何处去？这成为了具身智能整个行业，都在试图解决的问题。近日，蚂蚁灵波对外开源了 LingBot-Depth、LingBot-VLA 、LingBot-World 以及 LingBot-VA 系列模型。其中 LingBot-VA 所代表的 " 边预测、边行动 " 的具身世界模型范式，正与行业近期的探索形成呼应。而四个模型的开源，则将这套能力拆成可复用的模块与接口，为开发者提供从研究验证到工程试验的基础设施，从而降低具身智能研发与集成门槛。LingBot-VA 开源，首创 " 自回归视频 - 动作范式 "蚂蚁灵波开源周中，具身世界模型 LingBot-VA 成为了收官之作，其核心突破在于它改变了机器人的思考方式。传统机器人主要基于 " 视觉 - 语言 - 动作 " 范式，其决策模式类似于 " 条件反射 "：看到什么，就做什么。这种方式难以应对需要多步骤规划和因果推理的复杂任务。LingBot-VA 则让机器人具备 " 脑补 " 能力。在物理执行动作之前，它会在内部模拟并推演未来几秒的世界状态变化，再根据这个推演结果来决定当前的最佳动作。这使得机器人能够像人一样 " 先思后行 "，显著提升了在复杂、长时序任务中的可靠性和智能水平。实现这一切的基础在于，LingBot-VA 在核心范式上的创新。LingBot-VA 首创了 " 自回归视频 - 动作范式 "：将大规模视频生成模型与机器人控制深度融合，模型在生成 " 下一步世界状态 " 的同时，直接推演并输出对应的动作序列。具体而言，Mixture-of-Transformers ( MoT ) 架构让视频流（宽而深，负责视觉推演）与动作流（轻而快，负责运动控制）共享注意力机制又保持独立；闭环推演机制：每一步生成都纳入真实世界的实时反馈（如摄像头数据），形成 " 预测 - 执行 - 感知 - 修正 " 的循环，防止幻觉漂移。最后，异步推理管线让动作预测与电机执行并行处理，大幅降低延迟。得益于 LingBot-VA 的技术创新，机器人在制作早餐、插入试管、叠衣物等长时序、高精度、柔性物体操控任务中，成功率相较业界基线模型平均提升约 20%；在双臂协同操作基准 RoboTwin 2.0 上成功率首次超过 90%，在长时序终身学习基准 LIBERO 上达到 98.5% 的平均成功。LingBot 系列开源，构建具身智能的通用基础设施除了 LingBot-VA 之外，蚂蚁灵波还连续开源了 LingBot-Depth（空间感知）、LingBot-VLA 以及 LingBot-World。这四者共同构成了一套覆盖 " 感知 - 理解 - 模拟 - 行动 " 的完整具身智能技术栈。LingBot-Depth 相当于机器人的 " 眼睛 "，通过高精度空间感知模型，解决透明、反光物体识别难题，透明物体抓取成功率从 0 提升至 50%。LingBot-VLA ，类似于机器人的 " 大脑 "，让机器人理解指令并规划基础动作。基于 2 万小时真实机器人数据训练，LingBot-VLA 在 GM-100 基准测试中，成功率超越基线模型 Pi0.5。可以看到，与业内主流的 " 仿真到现实 "（Sim-to-Real）路径不同，蚂蚁灵波更笃信基于真实世界数据训练的价值。LingBot-VLA 覆盖了 9 种主流双臂机器人构型（包括 AgileX，Galaxea R1Pro、R1Lite 、AgiBot G1 等），实现了让同一个 " 大脑 " 可以无缝迁移至不同构型的机器人，并在任务变化、环境变化时保持可用的成功率与鲁棒性。与高精度空间感知模型 LingBot-Depth 配合，LingBot-VLA 还能获得更高质量的深度信息表征，通过 " 视力 " 的升级，真正做到 " 看得更清楚、做的更明白 "。LingBot-World，则是机器人的 " 数字演练场 "。利用多阶段训练和并行加速，LingBot-World 可以实现长达近 10 分钟的连续、稳定和无损视频生成，以解决视频生成中的常见挑战—— " 长时漂移 "，也即长时间的生成通常会出现物体变形、细节崩溃、主体消失或场景结构崩溃等现象。同时，LingBot-World 在长序列一致性、实时响应性以及对行动和环境动态之间的因果关系进行建模方面表现出色。这使得它能够在数字空间中 " 想象 " 物理世界，为人工智能代理提供一个具有成本效益、高保真环境，用于试错学习。" 机器人规模化的主要阻碍不在硬件，而在’反复训练 / 再训练（retraining）‘，也就是每做一个新任务或换一种机器人，往往就要重新采数据、重新调参，工程成本很高。这也是机器人很难从试点走向大规模部署的原因之一。"MarkTechPost CEOAsif Razzag 表示，蚂蚁灵波发布的一系列模型很有意思，从感知到认知，全栈（full-stack）体系，每个模型互为助力，并且全部开源。也正是基于这样的设计，全面开源的 LingBot 系列模型，构建了具身智能完整的通用基础设施，让开发者可以按需选用或组合。这种新的研究范式，在降低具身智能研发门槛的同时，也加速了具身智能从实验室走向产业化的进程。（文 | 科技潜线，作者 | 饶翔宇编辑 | 钟毅）

福建省福鼎市磻溪镇，安徽省鸠江区白茆镇，博罗县龙溪镇，浙江省青田县万阜乡，广西壮族自治区凤山县凤城镇，湖南省沅江市胭脂湖街道，河北省吴桥县于集镇，广西壮族自治区钟山县钟山镇，贵州省余庆县花山苗族乡，二道白河镇，召夸镇，江西省广信区花厅镇，广西壮族自治区凤山县凤城镇，山东省河口区新户镇，博罗县龙溪镇，浙江省青田县万阜乡，四川省木里藏族自治县依吉乡，山东省河口区新户镇，河北省吴桥县于集镇，四川省木里藏族自治县依吉乡，江西省广信区花厅镇，召夸镇

全球服务区域: 博罗县龙溪镇，河南省林州市横水镇，贵州省余庆县花山苗族乡，江西省临川区六水桥街道，贵州省余庆县花山苗族乡，青海省贵南县森多镇，甘肃省武都区琵琶镇，四川省绵竹市富新镇，广西壮族自治区合浦县乌家镇，贵州省余庆县花山苗族乡，福建省福鼎市磻溪镇，定兴县固城镇，江西省寻乌县菖蒲乡，四川省理县蒲溪乡，江西省临川区六水桥街道，内蒙古自治区卓资县梨花镇，江西省广信区花厅镇，虎丘区，甘肃省渭源县大安乡，安徽省肥东县梁园镇，内蒙古自治区卓资县梨花镇，山东省河口区新户镇。

随着互联网技术的飞速发展，人们的生活方式发生了翻天覆地的变化。如今，欧美在线视频观看已经成为众多影视爱好者的首选。无论是好莱坞大片还是欧洲文艺电影，都能在各大平台上轻松找到，为观众带来一场场视觉盛宴。首先，欧美在线视频观看平台众多，满足不同观众的需求。例如，Netflix、Hulu、Amazon Prime Video等国际知名平台，汇集了海量优质影视资源。在国内，腾讯视频、爱奇艺、优酷等平台也纷纷引进欧美热门剧集和电影，为国内观众提供丰富的观影选择。好莱坞大片是欧美在线视频观看的一大亮点。近年来，漫威系列、DC系列、星球大战等超级英雄电影在全球范围内掀起了一股观影热潮。这些影片特效震撼、剧情紧凑，让观众仿佛置身于一个充满奇幻色彩的世界。此外，像《阿凡达》、《盗梦空间》等科幻巨作，也让人叹为观止。除了好莱坞大片，欧美在线视频观看平台还提供了大量欧洲文艺电影。这些电影以独特的视角、细腻的情感和精湛的演技，展现了欧洲文化的魅力。如《天堂电影院》、《美丽人生》等经典影片，让人在感动之余，也领略到了欧洲电影的艺术价值。欧美在线视频观看平台还注重原创内容的开发。近年来，Netflix、Amazon Prime Video等平台纷纷推出自制剧集，如《王冠》、《黑镜》等，这些剧集在剧情、演技、制作等方面都达到了国际一流水平，赢得了观众的喜爱。此外，欧美在线视频观看平台还提供了丰富的纪录片资源。这些纪录片涉及历史、自然、科技等多个领域，让观众在欣赏影视作品的同时，也能增长知识。如《地球脉动》、《人类星球》等纪录片，让人领略到了大自然的神奇魅力。当然，欧美在线视频观看也面临一些问题。首先，部分影片存在版权问题，导致一些观众无法在正规平台上观看。其次，由于地域限制，部分欧美影片在国内的播放效果可能不尽如人意。然而，随着互联网技术的不断进步，这些问题正在逐步得到解决。总之，欧美在线视频观看为观众提供了一个广阔的影视世界。在这里，我们可以尽情欣赏好莱坞大片的震撼，感受欧洲文艺电影的魅力，领略纪录片的知识内涵。在这个信息爆炸的时代，欧美在线视频观看已成为我们生活中不可或缺的一部分。让我们携手共进，畅享全球影视盛宴！

标签社交媒体

上一篇巨头砸钱6500亿加剧担忧，黄仁勋“灭火”：AI需求火爆，庞大支出合理、可持续

下一篇迪士尼向字节跳动发出Seedance2.0项目停止侵权通知函

从VLA到世界模型，具身智能加速“范式转移”

相关文章