FATURA_Dataset_Based_发票图像分类与标注完整数据

数据集概述

该数据集包含20000张JPG格式发票图像(10000张白色背景、10000张彩色背景)及30000个JSON标注文件,基于50种模板生成,涵盖24个目标类别,标注含边界框坐标、文本及类别信息,数据存在类别不平衡现象。

文件详解

  • 文件名称: FATURA2.zip
  • 文件格式: ZIP压缩包
  • 压缩包内容说明: 包含10000张白色背景JPG图像、10000张彩色背景JPG图像(背景色与论文一致)、3组各10000个JSON标注文件(含原始格式、COCO格式、HuggingFace Transformers兼容格式)

适用场景

  • 文档分析模型训练: 用于训练和评估发票文本检测、目标识别等计算机视觉模型
  • 模型泛化能力测试: 基于两种评估策略,测试模型对相同模板新图像及未见过模板布局的适应能力
  • 类别不平衡问题研究: 分析模型在类别分布不均场景下的性能表现
  • 多格式标注兼容性验证: 验证模型对不同标注格式(原始、COCO、Transformers)的适配性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 658.72 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。