数据集概述
本数据集收录国际劳工局20世纪历史研究报告的英文文本集合,基于ILO-SR系列原始文档创建。包含251个文件,主要为文本文件,可用于非商业研究,使用需注明国际劳工局为原始来源。
文件详解
- 文本文件(.txt)
- 文件名称:如ILO-SR_F5_engl.pdf.txt、ILO-SR_NS49_engl.pdf.txt等(共249个)
- 文件格式:TXT
- 字段映射介绍:包含国际劳工局历史研究报告的OCR识别文本内容,涵盖报告标题、发布机构、日期及核心议题(如1921年《禁止在绘画中使用白铅》报告内容)
- 压缩文件(.zip)
- 文件名称:20191218-ilo-dataset.zip
- 文件格式:ZIP
- 字段映射介绍:数据集压缩包,包含所有相关文件
- 许可文件(LICENSE)
- 文件名称:LICENSE
- 文件格式:无扩展名
- 字段映射介绍:数据集使用许可说明,规定非商业使用及来源标注要求
数据来源
国际劳工局(International Labour Office),原始文档地址:https://www.ilo.org/public/libdoc/ilo/ILO-SR/
适用场景
- 国际劳工史研究:分析20世纪国际劳工组织发布的研究报告内容,探究劳工政策演变
- 社会政策文献分析:提取报告中的劳工标准、行业规范等信息,支持社会政策历史研究
- 非商业学术研究:作为国际劳工领域非商业学术研究的原始文本资料
- 历史文献数字化应用:验证OCR处理历史PDF文档的效果,优化数字化工作流程