科学论文摘要摘要数据集SciTLDR-A-adityawithdoublea
数据来源:互联网公开数据
标签:论文摘要, 文本摘要, 自然语言处理, 科学论文, 摘要生成, 机器翻译, 文本分析
数据概述:
SciTLDR-A是一个多目标数据集,包含5400个摘要(TLDRs),对应3200篇论文。该数据集包含了由作者撰写的摘要和专家生成的摘要。专家生成的摘要通过创新的标注协议收集,该协议在生成高质量摘要的同时,最大限度地减少了标注负担。数据集仅使用论文的摘要作为源文本。
数据用途概述:
该数据集主要用于文本摘要任务,支持自然语言处理领域的多种研究,包括但不限于:摘要生成模型的训练与评估、摘要质量评估、多目标摘要任务研究等。研究人员可以利用该数据集开发和测试摘要算法,探索不同摘要策略的效果,并进行文本摘要领域的学术研究。
数据集结构:
SciTLDR-A数据集被划分为训练集、验证集和测试集,比例为60/20/20。数据集以CSV格式存储。其中,rouge_scores和source_labels字段并非运行代码的必需字段,它们提供了预先计算好的ROUGE分数,方便未来的研究。
数据字段:
source:论文的摘要,每行一句。
source_labels:二元标签,0或1,1表示oracle句子。
rouge_scores:预先计算的ROUGE基线分数,针对每个句子。
paper_id:Arxiv论文ID。
target:每篇论文的多个摘要,每行一句。
title:论文标题。
数据集划分:
训练集:1992
验证集:618
测试集:619