dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

本数据集是IR/ML/NLP领域的数据集提及标注语料库，基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注，新增了源文献中开发的新数据集标注，并将复合数据集标注拆分为单独条目，以JSON格式重新打包，含标注偏移量信息。

文件名称：ner_dataset_recognition_sentences.json
文件格式：JSON
字段映射介绍：包含IR/ML/NLP领域的句子文本（sentence），以及每个句子中数据集名称的标注信息（含标注偏移量），覆盖显式命名、复用及新增的数据集，复合数据集已拆分为单独条目。

原始数据集：https://github.com/xjaeh/ner_dataset_recognition；论文：The Automatic Detection of Dataset Names in Scientific Articles；重标注资源：https://github.com/kermitt2/dataset_recognition_resources

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	2.76 MiB
最后更新	2026年1月3日
创建于	2026年1月3日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。