时间感知命名实体识别推特语料库

数据集概述

该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。

文件详解

  • 文件名称: temporal-ner-twitter-corpus.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含按年份划分的JSON格式标注文件,含推特ID及词级实体标注;2019年数据分为开发集和测试集,用于模拟未来时间预测场景。需通过Twitter搜索API提取对应文本内容。

适用场景

  • NLP模型时效性研究: 分析时间数据漂移对NER模型性能的影响
  • 社交媒体实体识别: 构建针对推特文本的命名实体识别模型
  • 跨时间文本分析: 研究不同时间段社交媒体中实体提及模式的变化
  • 模型鲁棒性测试: 验证NER模型在未来时间数据上的泛化能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.18 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。