Curated_Courier_Based_UNESCO_Courier全刊数字文本语料库_1948_2020

数据集概述

本数据集为UNESCO Courier杂志1948-2020年全刊的数字文本语料库,包含文章级和期刊级两种语料。文章级语料提取并重构所有英文文章文本,关联元数据索引;期刊级语料基于UNESCO PDF档案通过OCR生成,平均错误率约0.7%,支持数字文本分析。

文件详解

  • curated_courier_article_corpus.zip
  • 文件格式:ZIP
  • 内容说明:包含1948-2020年UNESCO Courier英文全刊所有文章的提取重构文本,以及关联的元数据索引文件document_index.csv
  • curated_issues.zip
  • 文件格式:ZIP
  • 内容说明:包含1948-2020年UNESCO Courier英文全刊每期的完整文本,通过多模式OCR从UNESCO PDF档案生成,平均OCR错误率约0.7%

数据来源

Uppsala University主导的INIDUN研究项目(瑞典研究委员会资助,2020-2024)

适用场景

  • 人文社科主题分析:研究1948-2020年全球人文领域核心议题的演变趋势
  • 数字文本挖掘:应用自然语言处理技术开展期刊内容的主题建模、情感分析等研究
  • 国际组织话语研究:分析UNESCO官方杂志的话语体系与国际理念传播规律
  • 学术资源数字化应用:为人文领域数字人文研究提供高质量标准化文本语料库
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 73.29 MiB
最后更新 2025年12月27日
创建于 2025年12月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。