智源发布具身数据创新基座,携手行业共筑物理AGI基础设施
编辑丨智源硏究院 >> 更多干货,欢迎加入国内首个具身智能全栈学习社区:,这里包含所有你想要的! 2025年11月20日,北京智源人工智能研究院正式发布具身数据创新基座:智源具身一站式平台RoboXstudio、大型高质量双臂机器人真机数据集RoboCOIN、智源具身数据软件框架CoRobot,推动了具身数据生产效率和质量的全面升级。...
2025-12-03 11:37:13
北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
在四足机器人的视觉 - 语言 - 动作(VLA)领域,核心难题在于弥合高层语义推理与底层动作控制的鸿沟——现有方法要么直接映射语言到动作导致稳定性差,要么依赖隐式中间嵌入缺乏可解释性,难以在真实场景中稳健执行复杂任务。 北京大学等团队推出的MobileVLA-R1,通过 “结构化思维链(CoT)推理 + 两阶段训练范式”,首次实现...
2025-11-30 11:00:00
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度
一、出发点与背景 机器人在开放环境中的操作需要模型具备三大核心能力:复杂视觉场景感知、自然语言指令理解、精准可靠的动作生成。视觉-语言-动作(VLA)模型作为统一框架,通过大规模多模态预训练,旨在实现跨任务、场景和物体类别的泛化,但现有方案仍面临关键瓶颈: 泛化能力不足:难以适配多样的任务指令、环境配置和...
2025-11-29 10:00:00
RoboTidy即将开源:让机器人在家庭场景“游刃有余”
导语: 当生成式AI已经能用Sora创造60秒的逼真梦境时,我们的物理机器人面对一个乱糟糟的客厅,却依然显得有些“手足无措”。 具身智能(Embodied AI)的下一个里程碑,不在于能“聊”什么,而在于能“干”什么。而要让机器人学会干活,首先得给它一个足够真实的“练兵场”。 近日,香港大学、原力无限等联合团队在arXiv上发布了一...
2025-11-29 10:00:00
3DGS杀入具身!港大×原力无限RoboTidy即将开源:让机器人在家庭场景“游刃有余”
导语: 新兴产业最新资讯:当生成式AI已经能用Sora创造60秒的逼真梦境时,我们的物理机器人面对一个乱糟糟的客厅,却依然显得有些“手足无措”。 具身智能(Embodied AI)的下一个里程碑,不在于能“聊”什么,而在于能“干”什么。而要让机器人学会干活,首先得给它一个足够真实的“练兵场”。 近日,香港大学、原力无限等联合团队...
2025-11-27 08:00:00
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒
11月4日,Generalist AI发布了震撼世界的Gen-0具身基础模型,其数据规模是前所未有。这个由Google DeepMind高级研究科学家Pete Florence创立、Andrew Barry担任CTO、Andy Zeng担任首席科学家的具身领域独角兽,仅在短短数月内就2度凭借官网公开发布的成果惊艳世人。上一次是凭借4段任务难度高、精度要求不低的的双臂长程操...
2025-11-26 08:00:00
ActDistill:同济大学提出动作引导蒸馏框架,机器人推理速度提升1.67倍
研究背景与核心问题 Vision-Language-Action(VLA)模型在机器人操作、视觉导航等具身智能场景中表现出强大的多模态推理与动作预测能力,但庞大的架构、频繁的跨模态交互导致计算开销大、推理延迟高,难以部署在实时或资源受限的机器人系统中。 现有高效VLA策略(如token剪枝、早期退出、轻量化架构)多沿用视觉-语言模型(...
2025-11-26 08:00:00
达摩院最新!RynnVLA-002:统一VLA与世界模型
在机器人操控领域,“精准响应指令、预判环境变化、稳定执行动作” 始终是核心挑战——现有视觉 - 语言 - 动作(VLA)模型缺乏对物理规律的理解与未来场景的想象,而世界模型虽能预测环境动态,却无法直接生成执行动作。 阿里巴巴达摩院、湖畔实验室等团队联合提出的RynnVLA-002,以 “VLA 模型与世界模型双向增强” 为核心思路,...
2025-11-25 08:00:00
具身智能下半场:南方阵营的崛起
2025 年走到尾声,回头看年初的行业预判,最意外的莫过于具身智能的热度居然还在高位盘旋。人工智能机器人热门信息整理,作为全年主要精力都放在无人机领域的观察者,我着实没想到,曾被认为 “概念大于实际” 的具身智能,如今声势竟盖过了其他封口。而这场持久战的下半场,一个清晰的趋势正在浮现 —— 南方阵营正在悄然崛起...
2025-11-24 08:00:00
FreeAskWorld:交互式具身闭环仿真框架
工业机器人技术新资讯平台获悉在具身智能领域,“社会性” 始终是难以跨越的障碍——现有视觉 - 语言导航(VLN)方案要么依赖静态单轮指令,无法应对动态场景;要么缺乏社交交互能力,难以模拟真实人类协作;要么仿真环境脱离现实,导致模型泛化性差。 而由清华大学人工智能研究院提出的 FreeAskWorld,用 “LLM 驱动的交互仿真...
2025-11-24 08:00:00
小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!
科技前沿资讯:昨天看到了小米的MiMo-Embodied工作,一直想好好准备下解读再对外。但今天就看到了xhs的一些评论,还有某号的解读。稍微有点偏了,作为技术出身的媒体,xiaomi内部的技术线也比较清晰了。MiMo(xiaomi models)是小米内部对大模业务线的统一称呼,MiMo-VL和MiMo-Embodied是其中两个团队。 不过本工作的核心贡...
2025-11-24 08:00:00
移动操作的AlohaMini来啦!600美元成本,全开源
编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。 昨天看到了AlohaMini,一款移动操作平台,价格真是美丽,600刀,而且可完全3D打印! 项目主页:https://github.com/liyiteng/AlohaMini AlohaMini是一款支持电动升降臂的...
2025-11-22 11:07:36
GEN-0 以及后续的 VLA 发展的看法
前言 最近 GEN-0[1] 的发布对于具身智能领域可以说是轰动性的。Manipulation 作为 Robotics 领域一直以来皇冠上的明珠,并且作为具身智能带来现实生产力必不可少的一环,一向以泛化的困难性著称。由于缺乏实际的使用场景,缺乏数据飞轮导致的数据匮乏使得模型的预训练难以 scaling up,而模型高度依赖后训练的数据。 在此之...
2025-11-21 08:00:00
南洋理工大学提出NORA-1.5:一种基于世界模型与动作奖励的VLA模型
南洋理工大学等研究单位提出NORA-1.5 通过集成流匹配动作专家与奖励驱动的直接偏好优化(DPO)后训练,解决了现有视觉-语言-动作(VLA)模型泛化性和可靠性不足的问题,在仿真与真实机器人场景中均实现了当前最优性能。 论文标题:NORA-1.5:AVision-Language-ActionModelTrainedusingWorldModel andAction-basedPreferenceR...
2025-11-21 08:00:00
解决特斯拉「监督稀疏」难题,用世界模型放大自动驾驶的Scaling Law
在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。 这一问题直指当前 VLA 模型的 “七寸”:其输入是高维、稠密的视觉信息流,但其监督信号却往往是低维、稀疏的驾驶动作(如路径点)。那么即便使用 PB 级的海量数据...
2025-11-20 08:00:00
全球首个量产绳驱AI机器人公司完成数亿元A++轮融资!
2025年11月18日,深圳 - 绳驱AI机器人公司星尘智能(Astribot)完成数亿元A++轮融资,由国科投资和蚂蚁集团联合领投,Bloom Advance Capital、时代伯乐(金马游乐产业基金管理人)、南山战新投等知名财务机构及产业资本跟投,老股东锦秋基金继续追投。 今年4月,星尘智能宣布连续完成数亿元A轮及A+轮融资,由锦秋基金、蚂蚁...
2025-11-19 08:31:29
人形机器人赛道,早已挤满车企
工业机器人技术新资讯平台获悉一场由车企深度参与的机器人竞赛已拉开帷幕。 据不完全统计,当前已有广汽、上汽、比亚迪、长安、奇瑞等十余家车企相继涌入人形机器人赛道。在海外,特斯拉、宝马等也提出了自己的人形机器人思路。汽车产业链上游同样动作密集——2025年以来,A股近30家汽车零部件公司设立机器人子公司,瞄准灵巧...
2025-11-18 08:44:47
登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人
在机器人操作领域,“高效学习” 始终是核心难题——现有模仿学习方法往往需要数百甚至数千次演示才能掌握单个任务,规模化扩展到千种日常任务更是需要海量数据与资源。而由帝国理工学院机器人学习实验室提出的 Multi-Task Trajectory Transfer(MT3),用 “轨迹分解为对齐 - 交互两阶段 + 检索式泛化” 的创新思路,打破了这一...
2025-11-17 08:45:23
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
2025年11月14日,北京具身智能机器人创新中心正式发布Pelican-VL 1.0具身视觉语言模型(VLM),不仅宣称性能超越GPT-5同类模型和Google Gemini系列,更以"全球最大规模开源具身多模态大模型"的身份,展示了中国在具身智能领域的技术硬实力。 具身智能,简单来说就是让机器人像人类一样感知世界、做出决策并执行动作的技术,...
2025-11-17 08:45:23
首款人形机器人,摔了个“狗啃泥”
编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 当地时间11月10日,在莫斯科举行的一场科技活动上,俄罗斯发布了首款国产人工智能(AI)人形机器人。 这款名为“艾多尔”(Aidol)的机器人基本采用俄罗斯国产零部件打造,是拟人机器人的先进范例。这款机器人具备对话、情绪识别及并能够离线工作。所有语音处...
2025-11-12 17:30:00
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
点击下方卡片,关注“具身智能之心”公众号 作者丨Feng Yan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。 在机器人操作领域,“通用性” 始终是难以攻克的难关——现有方案要么局限于 2D 视觉理解,无法适配物理世界的 3D...
2025-11-11 11:48:35
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
点击下方卡片,关注“具身智能之心”公众号编辑丨具身智能之心本文只做学术分享,如有侵权,联系删文>>更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。视觉-语言-动作模型已成为强大的通用机器人操作策略,这得益于大规模多模态预训练。然而,在分布外的部署场景中,这些模型往往无法可靠地...
2025-11-08 12:00:00
北大&智源研究院最新!RoboOS-NeXT:“记忆 + 分层架构” 实现通用多机器人协作
在多机器人协作领域,“全能性” 始终是难以跨越的障碍——现有方案要么受限于单机器人记忆,无法实现长期经验复用;要么难以协调异构机器人团队,面对任务增量或设备故障就 “瘫痪”。 而由北京大学、北京智源人工智能研究院等团队联合提出的RoboOS-NeXT,用 “时空 - 实体统一记忆(STEM)+ 大脑 - 小脑分层架构” 的创新思路,打...
2025-11-06 08:00:00
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
MAESTRO 是一种以视觉语言模型(VLM)为核心的模块化机器人框架,通过动态组合感知、规划、控制等专用模块,在无需大规模机器人训练数据的情况下,实现了超越现有视觉语言动作(VLA)模型的零样本操作性能,同时具备可扩展性、可调试性等优势。 论文链接:https://arxiv.org/pdf/2511.00917 主要创新点 当前通用机器人的主...
2025-11-05 08:00:00
KAIST团队:基于双流扩散的世界模型增强VLA模型
一、研究背景与核心问题 视觉-语言-动作模型(VLAs)是当前机器人通用策略学习的重要方向,其基于互联网规模多模态数据预训练的视觉-语言模型(VLMs)扩展而来,能生成适配新物体、场景和指令的动作。但这类模型存在关键缺陷:无法建模动作对环境的影响,缺乏对物理过程的显式理解,导致策略泛化性和鲁棒性受限。 为解决这...
2025-11-05 08:00:00
Dexmal原力灵机发布实时VLA模型!消费级显卡上完成pi0模型30Hz以上推理
一、写在前面&出发点 当前基于学习的机器人控制算法中,十亿参数级别的视觉-语言-动作(VLA)模型虽具备出色的泛化能力,但推理延迟过高成为瓶颈——传统VLA模型单次前向传播需数百毫秒,无法满足动态任务(如抓取运动物体)的实时性需求。 实时运行的关键阈值是33ms以内的推理时间:这一指标能确保处理30 FPS的RGB视频流时不...
2025-11-04 08:00:00
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
AI大模型最新新闻:在机器人视觉 - 语言 - 动作(VLA)领域,“大规模强化学习(RL)适配流式模型” 一直是难以跨越的鸿沟 ——现有方案要么受限于监督微调(SFT)的数据集依赖,面对新任务泛化能力骤降;要么因流式模型迭代去噪过程的 “动作对数似然难计算” 问题,无法将 RL 的环境交互优势融入其中。 而来自清华大学、北京大...
2025-11-03 08:00:00
OmniDexGrasp 揭秘:基础模型 + 力反馈,让机器人 “看懂指令、灵活抓握” 的通用方案
作者丨Yi-Lin Wei等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 更多干货,欢迎加入国内首个具身智能全栈学习社区:数码最新资讯平台,这里包含所有你想要的。 在机器人灵巧抓取领域,“通用性” 一直是难以突破的瓶颈——现有方案要么受限于数据集规模,面对新物体、新场景就 “失灵”;要么无法衔接基础模...
2025-10-31 08:00:00
再创历史!英伟达市值一夜突破5万亿美元!
见证历史,英伟达市值突破5万亿美元大关! 轻轻松松成为全球第一家市值突破5万亿美元的公司。而且英伟达的纪录英伟达破,当初率先突破4万亿美元的也是英伟达——追赶英伟达的只有英伟达了。 10月29日,美股开盘不久,英伟达股价一度上涨5.44%,盘中触及212.19美元/股,收盘价稳定在207.04美元/股。 随之而来的,是一个足以载...
2025-10-31 08:00:00
IROS 2025-Challenge冠军方案:X-VLA重磅开源,全面刷新机器人基准性能记录
清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布全新通用跨本体具身基座模型:X-VLA。X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型(公开数据、代码与参数),以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,同时,基于X-VLA的解决方案在IROS-AGIBOT World Challenge上大放异彩,夺得冠军。...
2025-10-29 12:00:00