ASO

  •   新智元报道  编辑:KingHZ【新智元导读】又有核心员工跑了!这次OpenAI痛失思维链之父Jason Wei。扎克伯格,王者回归,160亿美元拿下「AI铁王座」!突发新闻:核心科学家Jason Wei将离开OpenAI加入Meta,Hyung Won Chung可能也已离职。其中两人均是核心人物,贡献重大:Jason Wei(下图左):Scaling  Law联合作者及智能...
    新智元 2025-07-16 14:00:11
  • 本文源自 OpenAI 研究员 Jason Wei 的一篇随笔。作为思维链 (CoT)的作者,他从自己深耕的强化学习领域,巧妙地引申出关于个人成长的深刻洞见。过去一年,我痴迷于强化学习,几乎所有醒着的时间都在思考它。这竟无意中,让我悟出了一个关于人生的深刻道理。强化学习中有一个核心理念叫同策略学习(on-policy):相较于模仿他...
    智能情报所 2025-07-16 13:22:56
  • 克雷西 时令 发自 凹非寺量子位 | 公众号 QbitAI这次是真真真挖到OpenAI大动脉了。Jason Wei,思维链的提出者、o1系列模型的关键人物,被曝也被扎克伯格请走,即将入职Meta。消息最早由《连线》杂志Kylie曝光,得到了消息人士证实。Kylie还表示,Jason Wei的Slack账号(OpenAI的企业微信)已经被停用,一同被停用的还有o1的...
    量子位 2025-07-16 12:21:46
  • 机器之心报道机器之心编辑部Meta 针对 OpenAI 的挖人竟然还在继续!这或许是目前为止,扎克伯格挖走的最强技术人才。就在刚刚,外媒 Wired 的一位资深 AI 领域记者爆料称,「多个消息源证实,OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 将双双离职,投奔 Meta。」并且,他们二人的 Slack 账号已经被...
    机器之心 2025-07-16 10:22:26
  • 论文题目:Reward Reasoning Models论文地址:https://arxiv.org/pdf/2505.14674代码地址:https://thegenerality.com/agi/创新点与传统奖励模型直接输出标量分数不同,RRMs 在生成最终奖励前会先进行逐步推理,通过链式思考(chain-of-thought)过程,使模型能够更深入地理解问题和回答的内容,从而提高奖励判断的准确性。...
    学姐带你玩AI 2025-07-03 18:08:00