一战每周伤亡名单数据集1917-1919-mexwell
数据来源:互联网公开数据
标签:一战,伤亡名单,英国,第一次世界大战,历史,军事,人员伤亡,ALTO XML,OCR
数据概述:
本数据集收录了1917年至1919年间英国《每周伤亡名单》(Weekly Casualty Lists),这些名单最初从1914年9月开始在多个国家的报纸上每日发布,至1917年8月因纸张短缺和对公众士气的影响而停止。名单记录了英国军方人员在战争中受伤、失踪、被俘和阵亡的情况。
数据集由英国王室文具署(His Majesty’s Stationery Office)发布,包含1917-1919年的每周名单。数据集内容包括:
- 2,854份ALTO XML文件(每页一个文件)
- 2,854份图像文件
- 1,025,110行,8,059,060个单词
每个ALTO XML文件对应一张图像,图像经过光学字符识别(OCR)处理,结果存储在XML文件中。ALTO(Analyzed Layout and Text Object)是一种由欧盟资助的METAe项目开发的开源XML模式,最初用于描述数字化材料页面的文本OCR和布局信息,目标是能够基于数字化信息重构原始外观。
数据用途概述:
该数据集适用于历史研究、军事史分析、一战研究等场景。研究人员可以利用该数据集研究一战期间英国军队的伤亡情况,了解战争对军队的影响和公众士气的变化。教育机构可以将其用于教学和研究,帮助学生和学者更好地理解一战历史。此外,该数据集也有助于OCR技术和数字人文领域的研究。