7.4
深览指数
科技36 氪·超神经HyperAI··AI 生成
麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本
麻省理工和IBM研究员提出ChartNet,一个包含150万样本的合成图表数据集,涵盖24种图表类型。其核心创新在于代码引导的合成流程,通过迭代重写绘图代码生成多样化样本,并附有代码、表格、描述和推理链。实验表明,在该数据集上微调的小模型(2B-7B参数)在图表重建、数据提取、摘要等任务上,性能一致超越参数规模大得多的模型和GPT-4o。这对关心多模态模型训练数据稀缺性、合成数据有效性、以及模型能力与参数规模关系的深度读者有参考价值。
核心观点
- ▍图表理解是多模态AI的一个瓶颈,现有数据集规模小、类型少、缺乏完整多模态信息。ChartNet通过代码引导的大规模合成流程,生成了150万样本,覆盖24种图表类型和6种绘图库,填补了这一空白。
- 01ChartNet核心数据集包含150万条多模态对齐样本,每个样本包含:图表图像、绘图代码、表格数据、自然语言描述、带链式推理(CoT)的问答对。
- 02数据生成流程:种子图表→VLM生成代码→LLM迭代重写代码修改数据值和标签→代码渲染图表→VLM视觉质量过滤→代码引导的属性生成(提取表格、生成描述)。迭代增强环节允许每个种子生成任意数量变体,实现规模扩展。
- 03数据还包含专门子集:人工标注的合成数据(96,643条)、真实世界图表(30,000条,来自世界银行、皮尤研究中心等)、grounding QA对(识别图表区域与语法元素)、安全性数据(对抗有害内容和越狱)。
- 04微调实验:在ChartNet上微调后,超紧凑模型(SmolVLM-256M)从无法重建图表变为具备完整重建能力;LLaVA-7B在数据提取任务上提升+41.8分,超越GPT-4o(46.7%);Granite-Vision-2B在摘要任务上达83.9%,超越所有开源基线和GPT-4o。
- 05代码引导属性生成阶段,以代码为上下文,VLM提取数据值和标签生成表格表示,并结合视觉信息、代码和表格生成带grounding的图表描述。
- 06在公开基准ChartCap和ChartMimic-v2上,微调模型也获得显著提升(如Granite-Vision-2B的BLEU从1.6升至12.4),表明合成监督可迁移到真实世界分布。
反方 / 局限
- — 数据集是纯合成的,虽然包含真实世界子集(3万条),但核心150万样本依赖代码生成流程。合成数据可能无法完全覆盖真实图表的噪声、低质量或不完美排版,这可能影响模型在极端真实场景下的泛化性。
- — 结果展示的评估集本身也是ChartNet的一部分(同分布测试),对公开基准的泛化验证仅覆盖了两个任务(图表摘要和图表到代码),图表数据提取和CoT推理的跨分布泛化未被独立验证。
ChartNet麻省理工学院IBM研究院代码引导合成视觉语言模型 (VLM)GPT-4oJovana KondicTinyChart数据集IEEE计算机视觉与模式识别会议 (CVPR)
14 分钟 · 4 卡片 · 6 资料
读原文 →