智源TALK | 连续思维链为何更强?Russell学生最新工作
- 2025-07-31 12:00:00
报告主题:基于叠加态的推理:一个关于连续思维链的理论视角
报告日期:08月05日(周二)10:30-11:30
报告要点:
大语言模型(LLMs)在许多任务中展现出卓越性能,尤其是当允许模型使用“思维链”(chain-of-thought, CoT)时,即在最终作答前显式生成思考过程。然而,尽管已有研究从理论上证明离散 CoT 技术能提升模型能力,针对连续思维链(continuous CoT)在一些复杂推理任务(如有向图可达性)上的优越性仍缺乏理论理解。
我们证明,一个两层transformer可以通过 D 步连续 CoT 解决有向图可达性问题,其中 D 是图的直径,而目前已知的关于采用离散 CoT 的常数层 Transformer的最优结果则需消耗 O(n^2) 的步数(n 为顶点数量,且 D < n)。在我们的构造中,每一步连续思维向量都表现出叠加态,能够并行编码多条搜索路径(即并行广度优先搜索)。相比之下,离散 CoT 必须在每一步沿单一路径前进,导致推理过程步骤更多,在进入错误路径后需要回溯,且容易陷入局部解。
此外,我们的实验结果表明,在训练过程中模型所学到的行为与我们提出的理论构造保持一致。值得注意的是,在没有任何显式监督模型需要同时探索不同路径的情况下,模型在通过连续 CoT训练时会自发形成编码多条搜索路径的叠加状态。
报告嘉宾:

更多热门报告

声明:本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人,不代表科技区角网立场。仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
点击这里
扫码添加微信

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊