具身进化 - 科技区角

谷歌研究院联合加州大学等发布AVLMaps：多模态空间语言地图赋能机器人零样本导航与跨模态推理

摘要AbstractAVLMaps提出多模态空间语言地图，融合音频、视觉、语言线索于3D体素网格，支持零样本导航。项目地址：https://mslmaps.github.ioAVLMaps 使用来自音频、视觉和语言的多模态提示来解决现实世界中的零镜头空间导航任务。将语言接地到导航代理的观察可以利用预先训练的多模态基础模型将感知与对象或事件描述相匹配...

2025-07-16 20:35:56

加州大学等联合Sharpa联合发布触觉视觉双融合ViTacFormer，这款AI能2.5分钟自制汉堡

摘要Abstract灵巧作是机器人系统的基础能力，旨在以类似人类的方式与物理世界交互。尽管基于视觉的方法发展迅速，但触觉传感对于精细控制仍然至关重要，尤其是在非结构化或视觉遮挡的环境中。ViTacFormer系统通过触觉-视觉跨模态融合与自回归触觉预测，首次实现拟人化机械手长达2.5分钟的高精度连续操作（如11步汉堡制作）...

2025-07-10 10:54:05

具身新品｜魔法原子推出高动态双足人形机器人MagicBot Z1

摘要Abstract魔法原子（MagicLab）发布旗下新款双足人形机器人MagicBot Z1，通过“高性能可靠本体+开放AI生态系统+丰富场景落地应用”三位一体，定义人形机器人产品价值新维度。2025年7月8日，中国——全球领先的具身智能公司魔法原子（MagicLab）发布旗下新款双足人形机器人MagicBot Z1，通过“高性能可靠本体+开放AI生态系统+...

2025-07-09 17:37:41

字节跳动Seed实验室ByteDexter灵巧手：解锁人类级灵巧操作

摘要Abstract复制人类水平的灵巧性仍然是一项基本的机器人挑战，需要从机电一体化设计到高自由度（DoF）机械手控制的集成解决方案。虽然模仿学习有望将人类的灵巧性转移到机器人身上，但经过训练的策略的有效性取决于人类演示数据的质量。我们通过手臂远程作系统弥合了这一差距。来源：https://byte-dexter.github.io/ 背景...

2025-07-08 16:52:22

全球首篇自动驾驶VLA模型综述重磅发布！麦吉尔&清华&小米团队解析VLA自驾模型的前世今生

摘要Abstract来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊大学的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动（Vision-Language-Action, VLA）模型的全面综述。该论文系统性地梳理了VLA模型在自动驾驶（VLA4AD）领域的前沿进展，深入剖析了VLA模型在自动驾驶领域的架构演进、核心技术与未来挑战。 ...

2025-07-02 19:53:52

1X公司发布全球首个统一RL控制器：NEO人形机器人获人类级移动能力

摘要Abstract1X公司开发了第一款通用、完全兼容 AI 和远程作的控制器，可解锁双足类人机器人可用的完整运动工作区。这将使他们能够训练 Redwood AI 充分探索房屋的整个状态空间：每个高低架子、每个角落和缝隙、每一层楼。他们将使用这些数据来制造一个前所未见的 AI。对于在 NEO 的家庭环境中完成任务，并使我们的 Redwood...

2025-06-29 09:24:34