数据集

科学论文摘要摘要数据集SciTLDR-A-adityawithdoublea

科学论文摘要摘要数据集SciTLDR-A-adityawithdoublea 数据来源：互联网公开数据标签：论文摘要, 文本摘要, 自然语言处理, 科学论文, 摘要生成, 机器翻译, 文本分析

数据概述： SciTLDR-A是一个多目标数据集，包含5400个摘要(TLDRs)，对应3200篇论文。该数据集包含了由作者撰写的摘要和专家生成的摘要。专家生成的摘要通过创新的标注协议收集，该协议在生成高质量摘要的同时，最大限度地减少了标注负担。数据集仅使用论文的摘要作为源文本。

数据用途概述：该数据集主要用于文本摘要任务，支持自然语言处理领域的多种研究，包括但不限于：摘要生成模型的训练与评估、摘要质量评估、多目标摘要任务研究等。研究人员可以利用该数据集开发和测试摘要算法，探索不同摘要策略的效果，并进行文本摘要领域的学术研究。

数据集结构： SciTLDR-A数据集被划分为训练集、验证集和测试集，比例为60/20/20。数据集以CSV格式存储。其中，rouge_scores和source_labels字段并非运行代码的必需字段，它们提供了预先计算好的ROUGE分数，方便未来的研究。

数据字段： source：论文的摘要，每行一句。 source_labels：二元标签，0或1，1表示oracle句子。 rouge_scores：预先计算的ROUGE基线分数，针对每个句子。 paper_id：Arxiv论文ID。 target：每篇论文的多个摘要，每行一句。 title：论文标题。

数据集划分：训练集：1992 验证集：618 测试集：619

数据与资源

versions_20250411121931.zipZIP
1.52 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.52 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

科学论文摘要摘要数据集SciTLDR-A-adityawithdoublea

数据与资源

附加信息

注册成功！