数据集概述
本数据集包含19世纪美国报纸广告图像及“带插图”或“无插图”标注,源自美国国会图书馆Chronicling America馆藏的Newspaper Navigator数据集。数据含广告图像文件及配套元数据、标签文件,旨在为历史数字资源的计算机视觉教学提供实例,可用于广告图像分类研究。
文件详解
images.zip
- 文件格式:ZIP
- 内容说明:压缩包内包含所有报纸广告图像文件
newspaper-navigator-sample-metadata.csv
- 文件格式:CSV
- 字段映射:包含filepath(文件路径)、pub_date(出版日期)、page_seq_num(页序号)、edition_seq_num(版次序号)、batch(批次)、lccn(图书馆编目号)、box(箱号)、score(分数)、ocr(光学字符识别文本)、place_of_publication(出版地)、geographic_coverage(地理覆盖范围)、name(名称)、publisher(出版商)、url(链接)、page_url(页面链接)、month(月份)、year(年份)、iiif_url(国际图像互操作框架链接)等元数据字段
ads.csv
- 文件格式:CSV
- 字段映射:包含file(文件名)、label(标签,值为text-only或带插图类)字段,记录广告图像的插图类型标注
sample.csv
- 文件格式:CSV
- 内容说明:包含基于报纸来源的额外元数据
ads_upsampled.csv
- 文件格式:CSV
- 内容说明:含文件名列与标签列,为upsampled处理后的广告标签数据
数据来源
https://news-navigator.labs.loc.gov/
适用场景
- 历史广告图像分类研究: 利用标注数据训练或验证广告图像“带插图/无插图”分类模型
- 数字人文教学实践: 作为计算机视觉处理历史数字资源的教学实例数据集
- 19世纪美国报纸广告特征分析: 通过元数据与图像标注,研究该时期广告的视觉呈现规律
- 历史出版文化研究: 结合出版地、年份等元数据,分析不同地区、时期报纸广告的差异
- 数字资源标注应用: 探索历史图像资源自动化标注的方法与效果验证