美国具身公司发布GEN-0,证明在具身智能领域存在数据的规模响应
摘要 Abstract GEN-0是新一代具身基础模型,其核心突破在于首次在机器人领域建立了可预测的扩展定律,证明模型能力可随计算量和物理交互数据的增加而持续提升。该模型基于超过27万小时的真实世界操作数据训练,并以每周1万小时的速度增长,解决了机器人长期面临的数据瓶颈问题。其关键技术“谐波推理”通过异步处...
2025-11-07 18:55:26
GEM:一次训练,随处部署,实现数据高效的动态物体操作
摘要Abstract实现可推广的动态物体操作对提升制造业效率至关重要,它能避免为不同场景进行重复的专用工程开发。模仿学习作为一种有前途的范式,能利用专家演示来教导机器人操作策略。然而,尽管增加演示数据可以提升策略的泛化能力,但收集这些数据本身是劳动密集型的。为此,本研究核心探讨了如何仅凭少量演示即可实现动态...
2025-10-24 10:54:36
Figure发布Go-Big计划:实现零样本人机转移,人形机器人首次通过人类视频学习自主导航
摘要AbstractProject Go-Big:互联网规模的人形预训练。 Figure 正在构建世界上最大、最多样化的人形预训练数据集,并通过与 Brookfield 的前所未有的合作伙伴关系加速,Brookfield 在全球拥有超过 100,000 个住宅单元。项目地址:https://www.figure.ai/news/project-go-big在家庭中实现人类级智能的道路需要能够大规模地...
2025-10-09 18:10:00
突破性开源具身模型EO-1问世:统一感知与行动,机器人拥有“多模态大脑”
摘要AbstractEO-1模型正式亮相!这是面向通用机器人控制的开放统一具身基础模型,凭借3B参数规模的开源模型和创新的统一架构,在多个具身推理和机器人控制基准中超越现有开源模型,展现出强大的开放世界泛化能力。项目地址:https://eo-robotics.ai/eo-1人类在开放世界中无缝执行多模态推理和物理交互的能力是通用具身智能...
2025-09-10 13:55:48
亚秒级反应!伯克利HITTER框架让人形机器人实现106拍乒乓球对打
摘要Abstract加州大学伯克利分校的研究人员开发了HITTER,一个通过分层规划和学习框架打乒乓球的仿人机器人。该系统在Unitree G1机器人上实现了对抛掷球92.3%的成功回击率,并与人类对手持续进行了长达106拍的连续对打,展示了敏捷的全身控制能力和亚秒级的反应能力。项目地址:https://www.alphaxiv.org/zh/overview/2508....
2025-09-04 09:03:16
枢途WRC全球首发SynaData系统:从视频提取具身数据,破解行业数据困局
具身智能技术是人工智能第一次从屏幕走向物理世界,是打造新质生产力的革命性技术。但当前的具身数据采集技术或成本过高、或质量不佳,数据的极度匮乏直接阻碍了具身智能技术的发展。枢途科技在2025年世界机器人大会完成自研SynaData数据管线全球首发,率先实现将互联网RGB视频转化为多模态、高精度的具身通用训练数据,为...
2025-09-02 20:16:22
参数减少80%!人形机器人首次实现厘米级空间建模
摘要Abstract人形机器人技术正在迅速发展,制造商推出了针对特定场景量身定制的多样化异构视觉感知模块。在各种感知范式中,基于占用的表示已被广泛认为特别适合人形机器人,因为它提供了丰富的语义和三维几何信息,这对于全面理解环境至关重要。在这项工作中,我们提出了一种专为人形机器人量身定制的多模态占用感知系统,...
2025-08-26 19:37:22
具身感知TexLiDAR:全景激光雷达数据的自动文本理解
摘要AbstractTexLidar 是一种基于深度学习的工具,用于从环境图像中提取文本和检测对象。它利用 Microsoft 的 Florence-2 模型来分析图像、处理标题并识别图像不同部分中的对象。将LiDAR数据与文本(例如LidarCLIP)连接起来的努力主要集中在将3D点云嵌入到CLIP的文本图像空间中。然而,这些方法依赖于3D点云,这在编码效率...
2025-08-14 18:07:51
星尘智能发布Astribot Suite:用人类演示教机器人全身「移动」操作,成功率高达100%
摘要Abstract构建通用智能机器人一直是机器人研究的核心目标之一。一个颇具前景的路径是模仿人类的进化轨迹:通过与环境持续互动不断学习,在初始阶段通过模仿人类行为,加速技能的学习与迁移。实现这一目标面临三大核心挑战:(1)设计具备高度类人操作能力且安全可靠的机器人硬件;(2)开发直观且可扩展的全身遥操作系统...
2025-08-08 16:18:08
具身招聘|机器人赛道投资人请看过来
摘要Abstract某长期主义的产业投资机构正在招聘机器人赛道投资经理/投资总监。高级投资经理/投资总监薪资(15-35K)01岗位描述1、通过实地走访、调研,对人工智能/机器人/传感器/ICT/医疗/新能源几大方向中的某个行业进行深入研究,按照规定的模板要求撰写细分行业研究报告;2、在指定的细分行业中物色符合要求的优质投资标...
2025-08-06 10:00:42
清华团队发布Vidar&AnyPos具身视频基础模型:20分钟真机数据实现机器人跨本体泛化
摘要Abstract清华大学团队提出Vidar&AnyPos,实现机器人“虚实互通”的革命性突破。通过解耦动作执行与任务条件,攻克传统视觉-语言-动作(VLA)模型对人工演示的重度依赖问题。核心方案包含两大突破:1)Vidar视频基座模型:基于扩散架构的750K多视角视频预训练,结合掩码逆动力学模型(MIDM),仅需20分钟真机数据即可泛化...
2025-08-04 13:41:34
上海AI实验室发布『书生』具身全栈引擎,推动机器人大脑进入量产时代
近日,上海人工智能实验室(上海AI实验室)发布『书生』具身全栈引擎 Intern-Robotics,并面向全球开发者开放。通过构建虚拟仿真建模、虚实数据贯通、训测一体化等技术体系,Intern-Robotics实现了多项创新突破:一脑多形:实现开发一套模型,即可适配10余种机器人形态;虚实贯通:融合真机实采与虚拟合成数据,数采成本相...
2025-07-30 09:58:46
英伟达联合加州大学等发布EgoVLA模型:用人类视频给机器人操作“打基础”
摘要AbstractEgoVLA:一个视觉-语言-动作模型,通过明确地建模手腕和手部动作,在以自我为中心的人类视频上进行训练。该模型的关键突破在于:1)用人类视频解决了机器人训练数据瓶颈;2)提出了统一的手腕-手部动作表示;3)在仿真环境中验证了优越性。项目地址:https://rchalyang.github.io/EgoVLA/用于模仿学习的真实机...
2025-07-26 10:08:35
行为基础模型:下一代人形机器人全身控制系统
摘要Abstract行为基础模型(BFM)通过大规模行为数据预训练,实现人形机器人全身控制的跨任务泛化能力突破。传统控制器依赖人工调参或特定任务训练,泛化性差且成本高昂;BFM则学习可复用的基础技能和行为先验,支持零样本或快速适应新场景。香港理工大学等机构的综述首次系统分类三类BFM算法:目标导向学习、内在奖励驱动...
2025-07-24 15:14:17
字节跳动发布Seed GR-3:一个可泛化、支持长序列复杂操作任务的机器人操作大模型
摘要AbstractGR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型。项目地址:https://seed.bytedance.com/zh/GR3GR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外,GR-3 支持少量人类轨迹数据的高效微调,可快速且经济地适应新任务。GR-3 在处理长...
2025-07-22 13:19:02
UMI再进化!CMU推便携式Visuo-Tactile,基于260万次触摸经验的触觉智能,突破遮挡与干扰瓶颈
摘要Abstract当操作环境复杂多变——存在遮挡、光照变化或人为扰动时,仅凭视觉的机器人往往束手无策。精细任务单靠一双“眼睛”显然不够。如今,一个集成了视觉与高精度触觉感知的便携式触觉夹持器(Visuo-Tactile Gripper)及其背后的智能学习系统,在刚刚结束的机器人顶会RSS 2025上斩获最佳演示奖,它向我们证明:“触摸”的...
2025-07-19 12:16:51
谷歌研究院联合加州大学等发布AVLMaps:多模态空间语言地图赋能机器人零样本导航与跨模态推理
摘要AbstractAVLMaps提出多模态空间语言地图,融合音频、视觉、语言线索于3D体素网格,支持零样本导航。项目地址:https://mslmaps.github.ioAVLMaps 使用来自音频、视觉和语言的多模态提示来解决现实世界中的零镜头空间导航任务。将语言接地到导航代理的观察可以利用预先训练的多模态基础模型将感知与对象或事件描述相匹配...
2025-07-16 20:35:56
加州大学等联合Sharpa联合发布触觉视觉双融合ViTacFormer,这款AI能2.5分钟自制汉堡
摘要Abstract灵巧作是机器人系统的基础能力,旨在以类似人类的方式与物理世界交互。尽管基于视觉的方法发展迅速,但触觉传感对于精细控制仍然至关重要,尤其是在非结构化或视觉遮挡的环境中。ViTacFormer系统通过触觉-视觉跨模态融合与自回归触觉预测,首次实现拟人化机械手长达2.5分钟的高精度连续操作(如11步汉堡制作)...
2025-07-10 10:54:05
具身新品|魔法原子推出高动态双足人形机器人MagicBot Z1
摘要Abstract魔法原子(MagicLab)发布旗下新款双足人形机器人MagicBot Z1,通过“高性能可靠本体+开放AI生态系统+丰富场景落地应用”三位一体,定义人形机器人产品价值新维度。2025年7月8日,中国——全球领先的具身智能公司魔法原子(MagicLab)发布旗下新款双足人形机器人MagicBot Z1,通过“高性能可靠本体+开放AI生态系统+...
2025-07-09 17:37:41
字节跳动Seed实验室ByteDexter灵巧手:解锁人类级灵巧操作
摘要Abstract复制人类水平的灵巧性仍然是一项基本的机器人挑战,需要从机电一体化设计到高自由度(DoF)机械手控制的集成解决方案。虽然模仿学习有望将人类的灵巧性转移到机器人身上,但经过训练的策略的有效性取决于人类演示数据的质量。我们通过手臂远程作系统弥合了这一差距。来源:https://byte-dexter.github.io/ 背景...
2025-07-08 16:52:22
全球首篇自动驾驶VLA模型综述重磅发布!麦吉尔&清华&小米团队解析VLA自驾模型的前世今生
摘要Abstract来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊大学的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。该论文系统性地梳理了VLA模型在自动驾驶(VLA4AD)领域的前沿进展,深入剖析了VLA模型在自动驾驶领域的架构演进、核心技术与未来挑战。 ...
2025-07-02 19:53:52
1X公司发布全球首个统一RL控制器:NEO人形机器人获人类级移动能力
摘要Abstract1X公司开发了第一款通用、完全兼容 AI 和远程作的控制器,可解锁双足类人机器人可用的完整运动工作区。这将使他们能够训练 Redwood AI 充分探索房屋的整个状态空间:每个高低架子、每个角落和缝隙、每一层楼。他们将使用这些数据来制造一个前所未见的 AI。对于在 NEO 的家庭环境中完成任务,并使我们的 Redwood...
2025-06-29 09:24:34