科学论文摘要摘要数据集SciTLDR-A-adityawithdoublea

科学论文摘要摘要数据集SciTLDR-A-adityawithdoublea 数据来源:互联网公开数据 标签:论文摘要, 文本摘要, 自然语言处理, 科学论文, 摘要生成, 机器翻译, 文本分析

数据概述: SciTLDR-A是一个多目标数据集,包含5400个摘要(TLDRs),对应3200篇论文。该数据集包含了由作者撰写的摘要和专家生成的摘要。专家生成的摘要通过创新的标注协议收集,该协议在生成高质量摘要的同时,最大限度地减少了标注负担。数据集仅使用论文的摘要作为源文本。

数据用途概述: 该数据集主要用于文本摘要任务,支持自然语言处理领域的多种研究,包括但不限于:摘要生成模型的训练与评估、摘要质量评估、多目标摘要任务研究等。研究人员可以利用该数据集开发和测试摘要算法,探索不同摘要策略的效果,并进行文本摘要领域的学术研究。

数据集结构: SciTLDR-A数据集被划分为训练集、验证集和测试集,比例为60/20/20。数据集以CSV格式存储。其中,rouge_scores和source_labels字段并非运行代码的必需字段,它们提供了预先计算好的ROUGE分数,方便未来的研究。

数据字段: source:论文的摘要,每行一句。 source_labels:二元标签,0或1,1表示oracle句子。 rouge_scores:预先计算的ROUGE基线分数,针对每个句子。 paper_id:Arxiv论文ID。 target:每篇论文的多个摘要,每行一句。 title:论文标题。

数据集划分: 训练集:1992 验证集:618 测试集:619

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.52 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。