机器之心 - 科技区角

昨晚，云计算一哥打造了一套Agent落地的「金铲子」

机器之心报道编辑：泽南、杜伟多智能体 AI，是大模型的下一个大方向。上个星期，我们见证了 Grok 4、Kimi K2 的发布，利用多智能体技术，这些大模型可以自主理解所在任务环境，决定行动的方式，利用各种外部工具解决复杂问题。新一代的 AI 正在展现前所未有的能力，预示着大语言模型（LLM）正在进入一轮大版本的迭代。更令...

2025-07-17 17:31:49

马斯克Grok的AI男友还在取名，开源版AI女友已经火了，还是3D的

机器之心报道机器之心编辑部前几天，Grok 推出新功能「智能伴侣」，可用的伴侣头像包括动漫形象 Ani 和卡通小熊猫 Rudy，还有一款名为「Chad」的待上线角色。详见我们之前的报道《马斯克 Grok 这个二次元「小姐姐」，攻陷了整个互联网》但似乎，马斯克对这个名字不太满意？又或者是女性形象 Ani 引起的热烈反响让马斯克更重...

2025-07-17 17:31:49

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

本文作者来自于上海人工智能实验室与新加坡南洋理工大学，分别是张凡、田淑琳、黄子琪，指导老师是乔宇老师与刘子纬老师。怎么快速判断一个生成模型好不好？最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣，能告诉你模型到底强在哪、弱在哪，适不适合你的需求。...

2025-07-17 17:31:49

强化学习的两个「大坑」，终于被两篇ICLR论文给解决了

机器之心报道编辑：陈陈实时强化学习来了！AI 再也不怕「卡顿」。设想这样一个未来场景：多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型，但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加，煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟，蛋卷必...

2025-07-17 17:31:49

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

机器之心报道编辑：冷猫大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。这促使研究者们围绕两个主要方向积极探索高效化技术：一是通过权重共享提升参数效率，二是根据输入复杂度动...

2025-07-17 13:03:59

普林斯顿团队领衔发布最强开源数学定理证明模型：32B性能大幅超越前代SOTA DeepSeek 671B

近日，由普林斯顿大学牵头，联合清华大学、北京大学、上海交通大学、斯坦福大学，以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B；...

2025-07-17 13:03:59

维也纳ACL 2025，相聚机器之心人才晚宴，免费约饭！

不知不觉，2025 年已经来到 7 月，AI 领域依旧保持高速发展的趋势。从年初的 DeepSeek 横空出世，到 Gemini、 Claude 等模型的持续升级，大模型之间的「智力竞赛」仍在加速上演。各家不仅在模型规模和能力上不断突破，更在推理深度、数据构造、多模态交互等方面展开全方位竞争。技术迭代之快，几乎每个月都在重塑行业的认知...

2025-07-16 16:09:27

种子轮就估值120亿美元，她能打造另一个OpenAI吗？

机器之心报道编辑：+0据《金融时报》报道，OpenAI 前 CTO Mira Murati 的创业公司 Thinking Machines Lab 在一轮「种子轮融资」中成功募集了 20 亿美元，投后估值达到 120 亿美元，成为硅谷历史上规模最大的种子轮融资之一。从「几百万」到「二十亿」20 亿的种子轮投资是什么概念？让我们先从一个金融知识开始。「种子轮融...

2025-07-16 16:09:27

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳，导师为黄锦辉教授，目前在伦敦大学学院进行访问交流，他的研究方向包括可信大模型，模型不确定性，对话系统等，在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文，并长期在知乎写作大模型、机器学习等专栏文章，个人主页为：https://amourwaltz.github.io研究问题面对无...

2025-07-16 16:09:27

打造全球首个强化学习云平台，九章云极是如何做到的？

机器之心报道编辑：Panda从 ChatGPT 引发的通用聊天机器人热潮，到如今正迅猛发展的智能体模型，AI 正在经历一次深刻的范式转变：从被动响应的「语言模型」，走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。在这场转变中，强化学习（RL）正在重新登上舞台中央，成为驱动 AI 实现...

2025-07-16 12:21:58