一战每周伤亡名单数据集1917-1919-mexwell

一战每周伤亡名单数据集1917-1919-mexwell 数据来源:互联网公开数据 标签:一战,伤亡名单,英国,第一次世界大战,历史,军事,人员伤亡,ALTO XML,OCR

数据概述: 本数据集收录了1917年至1919年间英国《每周伤亡名单》(Weekly Casualty Lists),这些名单最初从1914年9月开始在多个国家的报纸上每日发布,至1917年8月因纸张短缺和对公众士气的影响而停止。名单记录了英国军方人员在战争中受伤、失踪、被俘和阵亡的情况。

数据集由英国王室文具署(His Majesty’s Stationery Office)发布,包含1917-1919年的每周名单。数据集内容包括: - 2,854份ALTO XML文件(每页一个文件) - 2,854份图像文件 - 1,025,110行,8,059,060个单词

每个ALTO XML文件对应一张图像,图像经过光学字符识别(OCR)处理,结果存储在XML文件中。ALTO(Analyzed Layout and Text Object)是一种由欧盟资助的METAe项目开发的开源XML模式,最初用于描述数字化材料页面的文本OCR和布局信息,目标是能够基于数字化信息重构原始外观。

数据用途概述: 该数据集适用于历史研究、军事史分析、一战研究等场景。研究人员可以利用该数据集研究一战期间英国军队的伤亡情况,了解战争对军队的影响和公众士气的变化。教育机构可以将其用于教学和研究,帮助学生和学者更好地理解一战历史。此外,该数据集也有助于OCR技术和数字人文领域的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 553.69 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。