麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

7.4

深览指数

科技36 氪·超神经HyperAI·4小时前·AI 生成

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

麻省理工和IBM研究员提出ChartNet，一个包含150万样本的合成图表数据集，涵盖24种图表类型。其核心创新在于代码引导的合成流程，通过迭代重写绘图代码生成多样化样本，并附有代码、表格、描述和推理链。实验表明，在该数据集上微调的小模型(2B-7B参数)在图表重建、数据提取、摘要等任务上，性能一致超越参数规模大得多的模型和GPT-4o。这对关心多模态模型训练数据稀缺性、合成数据有效性、以及模型能力与参数规模关系的深度读者有参考价值。

核心观点

▍图表理解是多模态AI的一个瓶颈，现有数据集规模小、类型少、缺乏完整多模态信息。ChartNet通过代码引导的大规模合成流程，生成了150万样本，覆盖24种图表类型和6种绘图库，填补了这一空白。

01ChartNet核心数据集包含150万条多模态对齐样本，每个样本包含：图表图像、绘图代码、表格数据、自然语言描述、带链式推理(CoT)的问答对。
02数据生成流程：种子图表→VLM生成代码→LLM迭代重写代码修改数据值和标签→代码渲染图表→VLM视觉质量过滤→代码引导的属性生成(提取表格、生成描述)。迭代增强环节允许每个种子生成任意数量变体，实现规模扩展。
03数据还包含专门子集：人工标注的合成数据(96,643条)、真实世界图表(30,000条，来自世界银行、皮尤研究中心等)、grounding QA对(识别图表区域与语法元素)、安全性数据(对抗有害内容和越狱)。
04微调实验：在ChartNet上微调后，超紧凑模型(SmolVLM-256M)从无法重建图表变为具备完整重建能力；LLaVA-7B在数据提取任务上提升+41.8分，超越GPT-4o(46.7%)；Granite-Vision-2B在摘要任务上达83.9%，超越所有开源基线和GPT-4o。
05代码引导属性生成阶段，以代码为上下文，VLM提取数据值和标签生成表格表示，并结合视觉信息、代码和表格生成带grounding的图表描述。
06在公开基准ChartCap和ChartMimic-v2上，微调模型也获得显著提升(如Granite-Vision-2B的BLEU从1.6升至12.4)，表明合成监督可迁移到真实世界分布。

反方 / 局限

— 数据集是纯合成的，虽然包含真实世界子集(3万条)，但核心150万样本依赖代码生成流程。合成数据可能无法完全覆盖真实图表的噪声、低质量或不完美排版，这可能影响模型在极端真实场景下的泛化性。
— 结果展示的评估集本身也是ChartNet的一部分(同分布测试)，对公开基准的泛化验证仅覆盖了两个任务(图表摘要和图表到代码)，图表数据提取和CoT推理的跨分布泛化未被独立验证。

ChartNet麻省理工学院IBM研究院代码引导合成视觉语言模型 (VLM)GPT-4oJovana KondicTinyChart数据集IEEE计算机视觉与模式识别会议 (CVPR)

14 分钟 · 4 卡片 · 6 资料

读原文 →

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

前置背景

技术原理

平行视角

延伸追问