点击下方卡片,关注“具身智能之心”公众号


作者丨Ang Li等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图

背景

人类在解决复杂问题时,常借助图表、草图等视觉辅助工具。训练多模态模型实现类似能力——即视觉思维链(visual CoT),面临两大挑战:一方面,现有视觉CoT性能欠佳,阻碍了强化学习的应用;另一方面,缺乏高质量的视觉CoT训练数据。

当前,尽管前沿多模态模型在视觉CoT方面取得一定进展,主要通过代理管道利用外部工具实现视觉编程,但具备 interleaved 文本和图像生成能力的模型,要么无法生成有用的推理视觉辅助工具,要么未在推理过程中进行固有的多模态生成训练,导致推理的强化学习方法难以实施。同时,专门模型虽在特定场景(如合成迷宫)展示了视觉CoT,但通用高质量视觉CoT的基础模型仍缺失,主要原因是缺乏大规模、多样化的 interleaved 文本-图像推理训练数据集。

核心创新点

  1. 提出Zebra-CoT,一个大规模(182,384样本)、多样化的数据集,包含逻辑连贯的 interleaved 文本-图像推理轨迹。
  2. 覆盖四大任务类别(科学问题、2D视觉推理、3D视觉推理、视觉逻辑与策略游戏),每个类别包含多个子领域,是首个在广泛领域提供多样化、逻辑连贯的多模态推理轨迹的数据集。
  3. 相比现有数据集,突破了单一任务限制(如VISUAL-COT仅关注视觉搜索),也克服了多数 interleaved 数据集语义对齐弱、无明确推理结构的问题,以高质量文本推理数据集的标准精心构建。

主要工作

数据集构建

  1. 覆盖范围:聚焦四类任务,具体包括:
  • 科学推理:几何、物理、化学、算法问题(如竞争编程、图算法)等;
  • 2D视觉推理:视觉搜索(图表、文本/文档、关系推理等)、视觉拼图;
  • 3D视觉推理:3D多跳目标计数、具身CoT、机器人规划;
  • 视觉逻辑与策略游戏:国际象棋、跳棋、迷宫、俄罗斯方块、密码等,如Figure 2所示。
资讯配图
  1. 数据来源与处理
  • 真实世界数据:从在线资源(如数学、物理、编程、国际象棋比赛数据集)获取高质量问题,提取并清洗含文本和图像的原始推理轨迹,解决模态间逻辑连接不清晰、图像引用难解析等问题。
  • 合成数据:通过生成图像或利用在线真实图像,结合推理模板创建示例,利用VLM填充模板占位符、增强推理轨迹,确保文本推理的多样性和表达性,流程如Figure 3所示。
资讯配图
  1. 规模与分布:总计182,384个样本,各子类别分布如Table 3所示,其中视觉逻辑与策略游戏占比36.7%,2D视觉推理占28.5%,3D视觉推理占21.7%,科学推理占13.2%。
资讯配图

模型微调与性能

  1. Anole-Zebra-CoT:在Zebra-CoT上微调Anole-7B模型后,分布内测试集准确率从4.2%提升至16.9%,相对提升4倍;在7个视觉推理基准测试中平均提升4.9%,其中视觉逻辑基准提升达13.1%,如Table 2所示。
资讯配图
  1. Bagel-Zebra-CoT:微调Bagel-7B模型后,其能够生成高质量的 interleaved 视觉推理链,原本该模型无法原生生成 interleaved 文本-图像输出,微调后实现了这一能力,展示了数据集在培养多模态推理能力上的有效性,示例见Figure 4。
资讯配图

相关工作

  1. 视觉思维链研究:现有工作多通过视觉编程生成图像(如Visual Sketchpad),或利用扩散模型生成中间图像辅助推理,但多为专门模型,缺乏通用基础模型,主要因缺乏大规模多样化的 interleaved 文本-图像推理训练数据。
  2. 视觉推理数据集:多数多模态推理数据集仅在输入中体现多模态,推理轨迹仍为纯文本;少数 interleaved 文本-视觉推理数据集(如VISUAL-COT)局限于单一任务;大规模 interleaved 文本-图像数据集(如OmniCorpus、MINT-1T)多为网页抓取,图像主要用于识别、 captioning 或作为文本推理的补充上下文,语义对齐弱,不适用于精细推理任务。
  3. 对比优势:Zebra-CoT在任务多样性、推理轨迹质量和逻辑连贯性上超越现有数据集,如Table 1所示。
资讯配图

局限

  1. 合成数据依赖模板生成,尽管通过VLM增强,文本推理的多样性和表达性仍可能受限。
  2. 数据集虽覆盖多领域,但部分子任务样本量较小(如几何占0.6%、竞争编程占0.7%),可能影响模型在这些子任务上的推理能力。
  3. 模型微调效果在部分子任务上提升不显著,甚至下降(如Anole-Zebra-CoT在EMMA的物理子任务上性能下降),需进一步优化数据集与模型适配性。

参考

[1]Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning

资讯配图