多语言历史报纸命名实体识别实体链接与立场检测数据集2021

数据集概述

该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。

文件详解

  • 文件名称: NewsEye-GT-NER_EL_StD-v1.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 包含多语言历史报纸数据,涵盖命名实体识别、实体链接与立场检测相关标注信息,具体字段与数据结构需解压后查看原始文件内容。

适用场景

  • 自然语言处理研究: 用于训练和评估多语言历史文本的命名实体识别、实体链接模型
  • 历史语义索引: 支持历史数字文化遗产文档的语义标注与检索系统开发
  • 计算历史语言学: 分析19世纪至20世纪历史报纸中的实体提及模式与立场倾向
  • 数字人文研究: 辅助历史事件、人物关系的大规模文本挖掘与分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.94 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。