LaTeX数学公式图像匹配数据集230k

数据集概述

该数据集包含超过二十三万组LaTeX数学公式及其对应的PNG格式图像,图像分辨率为72dpi且尺寸各异。数据来源于arXiv的LaTeX源文件,经解析生成,是版本3更新后的数据集,规模从十八万扩展至二十三万。

文件详解

  • 文件夹与文件:
  • generated_png_images文件夹:包含所有PNG格式的数学公式图像文件
  • corresponding_png_images.txt:纯文本文件,每行对应generated_png_images文件夹中的一个图像文件名
  • final_png_formulas.txt:纯文本文件,每行对应一个LaTeX数学公式
  • 230k.json:JSON格式文件,包含五百七十九个标记的词汇表

数据来源

arXiv

适用场景

  • 光学字符识别(OCR)研究:用于数学公式图像转文本的模型训练与测试
  • 计算机视觉应用:开发数学公式图像检索或匹配系统
  • 教育科技开发:构建自动批改数学作业或解析手写公式的工具
  • 自然语言处理:研究数学公式的结构化表示与语义理解
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 977.92 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。