【科技资讯】麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本 - 科普头条

【科技资讯】麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本

📌 信息分类:数据要素

📰 信息来源:www.36kr.com

📅 原文发布时间:2026-06-11 18:40

🕒 本站采集时间:2026-06-12 06:15:03


📝 核心摘要

过去两年多模态大模型发展迅速,但图表理解仍是视觉语言模型(VLM)的挑战——图表需跨越视觉、数值与语言认知,现有数据集存在规模小、类型有限、缺乏多模态信息等问题。为此,麻省理工学院、MIT-IBM计算研究实验室及IBM研究院专家提出ChartNet,这是迄今为止最大的合成图表数据集,采用代码引导式合成流程生成150万个多样化样本,涵盖24种图表类型和6种绘图库。核心样本包含图表图像、绘图代码、表格数据、自然语言描述及带链式推理的问答对;还设有人工标注(96643条)、真实世界图表(30000条,来自世界银行等权威机构)、grounding QA对、安全性数据等子集,拓展应用场景。其生成流程包括图表到代码重建、代码引导增强、渲染、质量筛选、属性生成五个阶段,确保数据质量与多模态对齐。实验验证显示,在ChartNet上微调的超紧凑、小、中型模型,在图表重建、数据提取、摘要生成、带CoT问答任务中均获显著提升:超紧凑模型从无法重建到具备完整功能;Granite-Vision-2B数据提取达70.3%,超越GPT-4o的46.7%;LLaVA-7B数据提取提升+41.8分;摘要生成Granite-Vision-2B达83.9%超GPT-4o;带CoT问答LLaVA-7B提升+15.17至70.3%,超越ChartGemma及GPT-4o。此外,微调模型在ChartCap、ChartMimic-v2等公共基准上泛化能力显著,说明ChartNet的监督信号可迁移至真实场景。ChartNet解决了图表理解领域缺乏大规模多模态对齐数据的瓶颈,推动VLM从“描述图表”升级到“理解结构化信息”,为数值推理、可视化理解等研究提供开放平台,未来计划扩展更复杂数据以创造行业价值。


🔗 阅读原文


👉 麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet,生成150万个多样化图表样本


🏷️ 标签:ChartNet, 合成图表数据集, 视觉语言模型, 图表理解, 代码引导式合成

本文由科普头条 AI 自动采集发布,内容仅代表作者观点

© 2026 科普头条   |   京ICP备2026012639号   |   京公网安备11010102007649号