数据集概述
本数据集包含从美国国会图书馆Chronicling America馆藏报纸中提取的图像样本,这些图像由Newspaper Navigator模型预测为“地图”类别,同时附带人工修正的标签(标记为“map”或“not a map”)。数据集用于优化历史报纸图像中地图类别的识别精度,辅助历史地理研究与报纸图像内容分析。
文件详解
- 报纸地图图像压缩包
- 文件名称:newspaper_maps.zip
- 文件格式:ZIP
- 字段映射介绍:包含被Newspaper Navigator预测为“地图”的历史报纸图像文件,图像路径示例为“newspaper_maps/dlc_fairymoss_ver01_data_sn83030313_00271743737_1871030501_0687_000_2_99.jpg”
- 图像元数据文件
- 文件名称:2020_30_10_13_19_228_sample.json
- 文件格式:JSON
- 字段映射介绍:包含每个预测图像的元数据,来源为Newspaper Navigator数据集
- 人工修正标签文件
- 文件名称:map_labels.csv
- 文件格式:CSV
- 字段映射介绍:包含两列数据,fname为图像文件路径,label为人工修正的标签(map/not a map),示例数据为“newspaper_maps/dlc_fairymoss_ver01_data_sn83030313_00271743737_1871030501_0687_000_2_99.jpg,map”
- 许可说明文件
- 文件名称:LICENSE.txt
- 文件格式:TXT
- 字段映射介绍:包含Chronicling America馆藏内容的版权与复制说明,及相关参考链接
数据来源
https://news-navigator.labs.loc.gov/
适用场景
- 历史报纸图像分类模型优化: 用于训练和评估历史报纸中地图类别的识别模型,提升预测精度
- 历史地理研究: 通过人工修正的地图图像,分析特定历史时期报纸中的地理信息呈现
- 数字人文资源开发: 为数字化历史报纸的内容结构化处理提供标注数据支持
- 计算机视觉模型验证: 作为小样本数据集,验证图像分类模型在低标注样本场景下的性能表现