数据19世纪法国商业名录数据集

数据集概述

该数据集包含1798至1861年间法国商业名录的页面与条目,分为标注数据集(8765条人工修正条目)和未标注数据集(1058196条原始条目),用于评估19世纪法语文档的OCR与NER性能。

文件详解

  • 文件名称: README.md
  • 文件格式: Markdown(.md)
  • 内容: 数据集概述、引用方式、使用许可等说明文档
  • 文件名称: french_trade_directories_19th_century_v1.0.0.zip
  • 文件格式: 压缩包(.zip)
  • 包含内容:
  • 标注数据集:原始页面与裁剪图片、人工修正的条目位置/转录/实体标签、3个系统的OCR预测结果、从清洁文本映射到OCR预测的NER参考
  • 未标注数据集:自动检测的条目位置、PERO OCR引擎的OCR预测结果

适用场景

  • 历史文档OCR技术评估:对比不同OCR系统在19世纪法语文档上的性能
  • NER模型训练与测试:基于标注数据训练NER模型,评估其在噪声OCR文本上的效果
  • 自监督学习预训练:利用未标注数据集进行OCR/NER模型的自监督预训练
  • 历史商业研究:分析19世纪法国商业名录中的实体信息与社会经济特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 145.52 MiB
最后更新 2025年12月26日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。