Zebra-CoT：开创性视觉思维链数据集问世，多模态推理准确率提升13%

具身智能之心
2025-07-25 08:00:00

点击下方卡片，关注“具身智能之心”公众号

作者丨Ang Li等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

背景

人类在解决复杂问题时，常借助图表、草图等视觉辅助工具。训练多模态模型实现类似能力——即视觉思维链（visual CoT），面临两大挑战：一方面，现有视觉CoT性能欠佳，阻碍了强化学习的应用；另一方面，缺乏高质量的视觉CoT训练数据。

当前，尽管前沿多模态模型在视觉CoT方面取得一定进展，主要通过代理管道利用外部工具实现视觉编程，但具备 interleaved 文本和图像生成能力的模型，要么无法生成有用的推理视觉辅助工具，要么未在推理过程中进行固有的多模态生成训练，导致推理的强化学习方法难以实施。同时，专门模型虽在特定场景（如合成迷宫）展示了视觉CoT，但通用高质量视觉CoT的基础模型仍缺失，主要原因是缺乏大规模、多样化的 interleaved 文本-图像推理训练数据集。

核心创新点

提出Zebra-CoT，一个大规模（182,384样本）、多样化的数据集，包含逻辑连贯的 interleaved 文本-图像推理轨迹。
覆盖四大任务类别（科学问题、2D视觉推理、3D视觉推理、视觉逻辑与策略游戏），每个类别包含多个子领域，是首个在广泛领域提供多样化、逻辑连贯的多模态推理轨迹的数据集。
相比现有数据集，突破了单一任务限制（如VISUAL-COT仅关注视觉搜索），也克服了多数 interleaved 数据集语义对齐弱、无明确推理结构的问题，以高质量文本推理数据集的标准精心构建。

主要工作

数据集构建

覆盖范围：聚焦四类任务，具体包括：

科学推理：几何、物理、化学、算法问题（如竞争编程、图算法）等；
2D视觉推理：视觉搜索（图表、文本/文档、关系推理等）、视觉拼图；
3D视觉推理：3D多跳目标计数、具身CoT、机器人规划；
视觉逻辑与策略游戏：国际象棋、跳棋、迷宫、俄罗斯方块、密码等，如Figure 2所示。

数据来源与处理：

真实世界数据：从在线资源（如数学、物理、编程、国际象棋比赛数据集）获取高质量问题，提取并清洗含文本和图像的原始推理轨迹，解决模态间逻辑连接不清晰、图像引用难解析等问题。
合成数据：通过生成图像或利用在线真实图像，结合推理模板创建示例，利用VLM填充模板占位符、增强推理轨迹，确保文本推理的多样性和表达性，流程如Figure 3所示。