【科技资讯】麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

📌 信息分类：数据要素

📰 信息来源：www.36kr.com

📅 原文发布时间：2026-06-11 18:40

🕒 本站采集时间：2026-06-12 06:15:03

📝 核心摘要

过去两年多模态大模型发展迅速，但图表理解仍是视觉语言模型（VLM）的挑战——图表需跨越视觉、数值与语言认知，现有数据集存在规模小、类型有限、缺乏多模态信息等问题。为此，麻省理工学院、MIT-IBM计算研究实验室及IBM研究院专家提出ChartNet，这是迄今为止最大的合成图表数据集，采用代码引导式合成流程生成150万个多样化样本，涵盖24种图表类型和6种绘图库。核心样本包含图表图像、绘图代码、表格数据、自然语言描述及带链式推理的问答对；还设有人工标注（96643条）、真实世界图表（30000条，来自世界银行等权威机构）、grounding QA对、安全性数据等子集，拓展应用场景。其生成流程包括图表到代码重建、代码引导增强、渲染、质量筛选、属性生成五个阶段，确保数据质量与多模态对齐。实验验证显示，在ChartNet上微调的超紧凑、小、中型模型，在图表重建、数据提取、摘要生成、带CoT问答任务中均获显著提升：超紧凑模型从无法重建到具备完整功能；Granite-Vision-2B数据提取达70.3%，超越GPT-4o的46.7%；LLaVA-7B数据提取提升+41.8分；摘要生成Granite-Vision-2B达83.9%超GPT-4o；带CoT问答LLaVA-7B提升+15.17至70.3%，超越ChartGemma及GPT-4o。此外，微调模型在ChartCap、ChartMimic-v2等公共基准上泛化能力显著，说明ChartNet的监督信号可迁移至真实场景。ChartNet解决了图表理解领域缺乏大规模多模态对齐数据的瓶颈，推动VLM从“描述图表”升级到“理解结构化信息”，为数值推理、可视化理解等研究提供开放平台，未来计划扩展更复杂数据以创造行业价值。

🔗 阅读原文

👉 麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

🏷️ 标签：ChartNet, 合成图表数据集, 视觉语言模型, 图表理解, 代码引导式合成

本文由科普头条 AI 自动采集发布，内容仅代表作者观点