学术引用意图分类数据集

学术引用意图分类数据集 数据来源:互联网公开数据 标签:学术引用,意图分类,科学文章,计算机科学,生物医学,生态学,数据挖掘,机器学习,文本分析,自然语言处理

数据概述: 本数据集来源于Huggingface Hub,包含从科学文章中提取的学术引用数据,并对引用意图进行了标记分类。数据集以易于理解的结构展示,包括引用文本、所在章节名称、引用标签、是否为核心引用等信息。涵盖多个领域,包括计算机科学、生物医学、生态学等,适用于多种研究和开发场景。

数据用途概述: 该数据集适用于学术引用意图的分类研究、学术文献搜索引擎开发、引用预测算法设计、文献数据分析和总结系统的构建等。通过分析引用意图,可以提高学术研究的效率和准确性,帮助研究人员、开发人员和学者更好地理解和利用学术文献。

举例: 该数据集包含三个CSV文件,分别是train.csv、test.csv和validation.csv,每种文件包含训练、测试和验证用的引用数据。引用数据中的字段包括引用的文本、所在章节名称、引用标签、是否为核心引用、引用开始和结束位置索引、引用来源等。例如,引用文本字段string提供了引用的具体内容,sectionName字段标识引用所在的章节(如引言、摘要等),label字段提供了引用的意图标签(如背景信息、方法、结果等),citeStart和citeEnd字段提供了引用在文本中的起始和结束位置索引等。这些字段可以帮助研究者提取引用的具体信息、识别引用之间的关系、验证文献的准确性等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.85 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。