dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

数据集概述

本数据集是IR/ML/NLP领域的数据集提及标注语料库,基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注,新增了源文献中开发的新数据集标注,并将复合数据集标注拆分为单独条目,以JSON格式重新打包,含标注偏移量信息。

文件详解

  • 文件名称:ner_dataset_recognition_sentences.json
  • 文件格式:JSON
  • 字段映射介绍:包含IR/ML/NLP领域的句子文本(sentence),以及每个句子中数据集名称的标注信息(含标注偏移量),覆盖显式命名、复用及新增的数据集,复合数据集已拆分为单独条目。

数据来源

原始数据集:https://github.com/xjaeh/ner_dataset_recognition;论文:The Automatic Detection of Dataset Names in Scientific Articles;重标注资源:https://github.com/kermitt2/dataset_recognition_resources

适用场景

  • 自然语言处理模型训练: 用于训练IR/ML/NLP领域的数据集名称实体识别模型。
  • 科学文献数据集挖掘: 从学术文本中自动提取和识别数据集名称,支持文献计量分析。
  • 标注方法优化研究: 对比原始与重新标注的语料,分析数据集标注策略的有效性。
  • 数据集知识图谱构建: 基于识别的数据集名称,构建领域数据集关联网络。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.76 MiB
最后更新 2026年1月3日
创建于 2026年1月3日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。