数据集概述
本数据集为UNESCO Courier杂志1948-2020年全刊的数字文本语料库,包含文章级和期刊级两种语料。文章级语料提取并重构所有英文文章文本,关联元数据索引;期刊级语料基于UNESCO PDF档案通过OCR生成,平均错误率约0.7%,支持数字文本分析。
文件详解
- curated_courier_article_corpus.zip
- 文件格式:ZIP
- 内容说明:包含1948-2020年UNESCO Courier英文全刊所有文章的提取重构文本,以及关联的元数据索引文件document_index.csv
- curated_issues.zip
- 文件格式:ZIP
- 内容说明:包含1948-2020年UNESCO Courier英文全刊每期的完整文本,通过多模式OCR从UNESCO PDF档案生成,平均OCR错误率约0.7%
数据来源
Uppsala University主导的INIDUN研究项目(瑞典研究委员会资助,2020-2024)
适用场景
- 人文社科主题分析:研究1948-2020年全球人文领域核心议题的演变趋势
- 数字文本挖掘:应用自然语言处理技术开展期刊内容的主题建模、情感分析等研究
- 国际组织话语研究:分析UNESCO官方杂志的话语体系与国际理念传播规律
- 学术资源数字化应用:为人文领域数字人文研究提供高质量标准化文本语料库