从VLA到世界模型,具身智能加速“范式转移”

,20260220 20:21:11 黑龙江省友好区双子河街道 816
随着具身智能的向前发展,传统的 VLA 技术路线正在面临越来越多的挑战。所谓 VLA 模型,即视觉 - 语言 - 动作模型。它的技术逻辑可以简单描述为,将人类指令和外界多模态信息(声音、图像、视频)转化为计算机语言,继而控制机器人行为。但在 VLA 模型的训练中,互联网上的静态、非结构化文本和图像数据,并不是训练所需的核心数据。物理世界数据的稀缺与复杂性,成为了制约 VLA 模型能力跃升的主要瓶颈。VLA 之后,具身智能接下来将往何处去?这成为了具身智能整个行业,都在试图解决的问题。近日,蚂蚁灵波对外开源了 LingBot-Depth、LingBot-VLA 、LingBot-World 以及 LingBot-VA 系列模型。其中 LingBot-VA 所代表的 " 边预测、边行动 " 的具身世界模型范式,正与行业近期的探索形成呼应。而四个模型的开源,则将这套能力拆成可复用的模块与接口,为开发者提供从研究验证到工程试验的基础设施,从而降低具身智能研发与集成门槛。LingBot-VA 开源,首创 " 自回归视频 - 动作范式 "蚂蚁灵波开源周中, 具身世界模型 LingBot-VA 成为了收官之作,其核心突破在于它改变了机器人的思考方式。传统机器人主要基于 " 视觉 - 语言 - 动作 " 范式,其决策模式类似于 " 条件反射 ":看到什么,就做什么。这种方式难以应对需要多步骤规划和因果推理的复杂任务。LingBot-VA 则让机器人具备 " 脑补 " 能力。在物理执行动作之前,它会在内部模拟并推演未来几秒的世界状态变化,再根据这个推演结果来决定当前的最佳动作。这使得机器人能够像人一样 " 先思后行 ",显著提升了在复杂、长时序任务中的可靠性和智能水平。实现这一切的基础在于,LingBot-VA 在核心范式上的创新。LingBot-VA 首创了 " 自回归视频 - 动作范式 ":将大规模视频生成模型与机器人控制深度融合,模型在生成 " 下一步世界状态 " 的同时,直接推演并输出对应的动作序列。具体而言,Mixture-of-Transformers ( MoT ) 架构让视频流(宽而深,负责视觉推演)与动作流(轻而快,负责运动控制)共享注意力机制又保持独立;闭环推演机制:每一步生成都纳入真实世界的实时反馈(如摄像头数据),形成 " 预测 - 执行 - 感知 - 修正 " 的循环,防止幻觉漂移。最后,异步推理管线让动作预测与电机执行并行处理,大幅降低延迟。得益于 LingBot-VA 的技术创新,机器人在制作早餐、插入试管、叠衣物等长时序、高精度、柔性物体操控任务中,成功率相较业界基线模型平均提升约 20%;在双臂协同操作基准 RoboTwin 2.0 上成功率首次超过 90%,在长时序终身学习基准 LIBERO 上达到 98.5% 的平均成功。LingBot 系列开源,构建具身智能的通用基础设施除了 LingBot-VA 之外,蚂蚁灵波还连续开源了 LingBot-Depth(空间感知)、LingBot-VLA 以及 LingBot-World。这四者共同构成了一套覆盖 " 感知 - 理解 - 模拟 - 行动 " 的完整具身智能技术栈。LingBot-Depth ​相当于机器人的 " 眼睛 ",通过高精度空间感知模型,解决透明、反光物体识别难题,透明物体抓取成功率从 0 提升至 50%。LingBot-VLA ​,类似于机器人的 " 大脑 ",让机器人理解指令并规划基础动作。基于 2 万小时真实机器人数据训练,LingBot-VLA 在 GM-100 基准测试中,成功率超越基线模型 Pi0.5。可以看到,与业内主流的 " 仿真到现实 "(Sim-to-Real)路径不同,蚂蚁灵波更笃信基于真实世界数据训练的价值。LingBot-VLA 覆盖了 9 种主流双臂机器人构型(包括 AgileX,Galaxea R1Pro、R1Lite 、AgiBot G1 等),实现了让同一个 " 大脑 " 可以无缝迁移至不同构型的机器人,并在任务变化、环境变化时保持可用的成功率与鲁棒性。与高精度空间感知模型 LingBot-Depth 配合,LingBot-VLA 还能获得更高质量的深度信息表征,通过 " 视力 " 的升级,真正做到 " 看得更清楚、做的更明白 "。LingBot-World,则是机器人的 " 数字演练场 "。利用多阶段训练和并行加速,LingBot-World 可以实现长达近 10 分钟的连续、稳定和无损视频生成,以解决视频生成中的常见挑战—— " 长时漂移 ",也即长时间的生成通常会出现物体变形、细节崩溃、主体消失或场景结构崩溃等现象。同时,LingBot-World 在长序列一致性、实时响应性以及对行动和环境动态之间的因果关系进行建模方面表现出色。这使得它能够在数字空间中 " 想象 " 物理世界,为人工智能代理提供一个具有成本效益、高保真环境,用于试错学习。" 机器人规模化的主要阻碍不在硬件,而在’反复训练 / 再训练(retraining)‘,也就是每做一个新任务或换一种机器人,往往就要重新采数据、重新调参,工程成本很高。这也是机器人很难从试点走向大规模部署的原因之一。"MarkTechPost CEOAsif Razzag 表示,蚂蚁灵波发布的一系列模型很有意思,从感知到认知,全栈(full-stack)体系,每个模型互为助力,并且全部开源。也正是基于这样的设计,全面开源的 LingBot 系列模型,构建了具身智能完整的通用基础设施,让开发者可以按需选用或组合。这种新的研究范式,在降低具身智能研发门槛的同时,也加速了具身智能从实验室走向产业化的进程。(文 | 科技潜线,作者 | 饶翔宇 编辑 | 钟毅)

山东省郓城县李集镇,青海省贵南县森多镇 ,甘肃省渭源县大安乡,广东省天河区元岗街道,湖南省沅江市胭脂湖街道,江西省于都县梓山镇,河南省林州市横水镇,定兴县固城镇,湖南省沅江市胭脂湖街道,山东省郓城县李集镇,尚义县南壕堑镇,黑龙江省明水县双兴镇,山东省槐荫区振兴街街道,四川省绵竹市富新镇,河北省枣强县嘉会镇,青海省贵南县森多镇,江西省临川区六水桥街道 ,贵州省余庆县花山苗族乡,广西壮族自治区合浦县乌家镇,甘肃省庆城县桐川镇,虎丘区,河南省林州市横水镇

全球服务区域: 江西省临川区六水桥街道,广东省天河区元岗街道 ,江西省弋阳县桃源街道,贵州省余庆县花山苗族乡,陕西省白河县冷水镇,江西省寻乌县菖蒲乡,重庆市潼南区桂林街道,甘肃省庆城县桐川镇,河北省吴桥县于集镇,山东省槐荫区振兴街街道,贵州省余庆县花山苗族乡,河南省林州市横水镇,河北省吴桥县于集镇,河南省林州市横水镇,云南省德钦县云岭乡,江西省广信区花厅镇,河北省吴桥县于集镇 ,江西省广信区花厅镇,河北省吴桥县于集镇,新余市,安徽省鸠江区白茆镇,云南省德钦县云岭乡。

在繁华的都市中,一座顶楼大象的雕塑成为了人们心中的地标。它不仅是城市文化的象征,更是艺术与生活的完美融合。如今,你只需轻点鼠标,就能在线观看顶楼大象的精彩瞬间,感受那份独特的艺术魅力。 顶楼大象,这座高达数十米的巨型雕塑,位于我国某城市的中心区域。它以独特的造型和生动的表情,吸引了无数游客和摄影爱好者的目光。这座大象雕塑不仅展现了艺术家对生命的热爱,更传递出一种对美好生活的向往。 近年来,随着互联网的普及,越来越多的人开始通过网络平台欣赏各类艺术作品。顶楼大象也不例外,它通过在线观看的方式,让更多的人感受到了这座雕塑的魅力。下面,就让我们一起走进顶楼大象的世界,领略其独特的艺术风采。 首先,顶楼大象的材质选择非常独特。它采用了不锈钢和玻璃钢两种材料,使得这座雕塑在阳光下熠熠生辉。不锈钢的质感给人一种冷峻的感觉,而玻璃钢则带来了柔和的视觉体验。这种材质的搭配,使得顶楼大象在光影交错中展现出丰富的层次感。 其次,顶楼大象的造型设计极具创意。它以大象为原型,将大象的头部和身体进行了夸张的处理,使得整体造型更加生动有趣。大象的耳朵、鼻子和眼睛都栩栩如生,仿佛随时会从雕塑中走出,与观众互动。这种设计不仅展现了艺术家的想象力,也让人们在欣赏过程中感受到无尽的欢乐。 再者,顶楼大象的背景环境也非常迷人。它位于一座高楼大厦的顶楼,周围是一片绿意盎然的公园。每当夜幕降临,霓虹灯的映衬下,顶楼大象显得更加璀璨夺目。在这里,人们可以尽情欣赏这座雕塑与周围环境的和谐之美。 在线观看顶楼大象,我们可以通过多种途径。首先,各大视频网站提供了顶楼大象的相关视频,让我们可以随时随地欣赏到这座雕塑的风采。此外,一些社交媒体平台也发布了顶楼大象的美图,让我们在碎片化的时间里也能感受到这座雕塑的魅力。 值得一提的是,顶楼大象还举办过多次线上展览。在这些展览中,艺术家们通过不同的角度和手法,展示了顶楼大象的多样面貌。观众们可以通过这些展览,更加深入地了解这座雕塑背后的故事和艺术价值。 总之,顶楼大象这座艺术作品,以其独特的造型、材质和背景环境,吸引了无数人的目光。如今,我们只需轻点鼠标,就能在线观看顶楼大象的精彩瞬间,感受那份独特的艺术魅力。让我们一起走进顶楼大象的世界,领略这座雕塑带给我们的视觉与情感的盛宴吧!
标签社交媒体

相关文章