2700万参数硬刚大模型！1000个样本训出超强逻辑脑，资源消耗不到GPT-4的1%，在ARC基准上击败Claude，代码已开源

资讯配图

人脑风格的循环结构在推理能力上，已超越传统的思维链方法。相关研究的完整论文和代码地址见文末。

Sapient Intelligence 的研究揭示了一项突破：一个仅有 2700 万参数的层次化推理模型，展现出惊人的学习效率。

它仅需 1000 个训练样本，便能攻克复杂的逻辑谜题，解决了传统模型因输出冗长推理步骤而带来的低效与浪费问题。

该模型在 ARC-AGI-2 基准测试中得分 5%，超越了许多参数量庞大的模型。在极端数独和 30x30 迷宫等任务上，它的表现近乎完美，而这些任务通常是大型系统的瓶颈。

HRM 的架构模仿人类认知，内置两个不同时间尺度的循环模块：一个负责抽象规划的慢速系统，和一个进行快速反应的系统。

资讯配图

这种设计让模型能在单次处理中实现动态、类人的推理，无需海量计算、大数据集或随时间反向传播的复杂训练。

其灵感源于大脑的跨频耦合机制。大脑中，慢速的 Theta 波构建宏观蓝图，而快速的 Gamma 波则处理具体细节。

HRM 模型完美复刻了这一机制。高层循环缓慢规划，低层循环则快速迭代解决精细步骤，两者往复通信，确保思考既有方向性，又不失灵活性。

这种双速系统让模型能够进行深度思考，却不必写出每一步，从而实现了数据效率与速度的双赢。

大语言模型通常将难题分解为逐个词元的思考过程。一个微小的错误就可能导致整个推理链的崩溃。

模型在得出结论前，必须输出成百上千的词元。研究者认为这是一种拐杖，因为真正的推理发生在网络内部，而非打印出的文本。

神经科学揭示，慢速规划回路引导着快速细节回路。HRM 以此为蓝本，其高层规划器定期更新，而低层执行器在每个规划步内高速运转。

当规划器发出新指令时，执行器会重置。这种嵌套机制避免了经典循环神经网络的早熟收敛陷阱，也绕开了 Transformer 堆叠带来的梯度消失问题。

HRM 并行运行两个小型的循环网络：一个负责规划的慢速 H 模块，和一个执行微观操作的快速 L 模块。

快速循环处理子问题直至状态稳定，慢速循环随即更新整体策略并下达新目标。训练过程采用单步梯度捷径，极大降低了内存消耗。

每个任务中，HRM 仅需 1000 组输入输出对进行训练，完全不依赖海量网络爬取数据或手写的思维链。

模型还配备了一个自适应停止机制，能自主判断何时结束思考。简单问题快速完成，复杂问题则投入更多时间，显著节省了 GPU 资源。

在 ARC-AGI 抽象推理测试中，HRM 获得 40.3% 的高分，超越了 o3-mini-high (34.5%) 和 Claude 3.7 Sonnet (21.2%)。

在极端数独和 30x30 迷宫任务上，传统的思维链模型束手无策，得分均为 0%，而 HRM 在同样训练样本下，准确率近乎完美。

其运行之所以如此之快，是因为 HRM 在高维度的潜空间中思考，仅输出最终答案，而非冗长的叙述。推理过程在词元间并行，整个数独网格一次即可解出。

解码模型的中间状态可以发现，快速循环能同时探索多条迷宫路径、剪除死角，然后将精炼地图交给慢速循环以优化全局路线。

在数独任务中，其隐藏状态模拟了带回溯的深度优先搜索。这种行为因任务而异，表明 HRM 能够自主学习和运用不同的算法。

研究还发现，慢速模块的表征维度比快速模块大出近三倍。这与人脑中高级前额叶皮层和低级感知皮层间的维度差异惊人地相似，并且这种特性是模型自主学习涌现的，而非人为设计。

HRM 的成功启示我们，用小巧的层次化结构和廉价的循环运算，替代无尽的层堆叠，有可能以树莓派级别的成本，实现大语言模型级的推理能力。

它的推理能力还能持续扩展：只需提高计算上限，准确率便能进一步提升，无需任何再训练。

路线规划、工业调度、科学探索等许多领域，都需要确定性的答案，且硬件资源有限。HRM 的轻量级和潜空间推理，使其能轻松部署于边缘设备，并为企业免去大模型 API 高昂的词元费用。

它的成本效益是颠覆性的。在测试中，数独训练仅需 2 个 GPU 小时，最难的 ARC 基准测试也只需 200 个 GPU 小时，仅为传统基础模型预算的冰山一角。

在标准 CPU 上，它能以低于 200MB 的内存实现毫秒级运行。这使其成为边缘设备、嵌入式系统、医疗诊断、气候预测和机器人控制等实时应用的理想选择。

其训练和推理成本不到 GPT-4 或 Claude 3 的 1%，为资源有限的初创企业打开了通往高级 AI 的大门，标志着 AI 发展的重心正从“规模至上”转向更智能、更高效的“脑启发设计”。

参考资源：

论文地址：https://arxiv.org/abs/2506.21734

Github：https://github.com/sapientinc/HRM

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里