数据集 - 海数据

埃及新闻文章摘要生成数据集

2026年3月3日 30 156 117

埃及新闻文章摘要生成数据集_Egyptian_News_Article_Summarization_Dataset 数据来源：互联网公开数据标签：文本摘要, 新闻文章, 自然语言处理, 机器翻译, 深度学习, 文本生成, 语料库, 阿拉伯语数据概述：...

ZIP

编程问答标题与文章数据集

2026年2月17日 30 118 23

编程问答标题与文章数据集_Programming_Q_A_Title_and_Article_Dataset 数据来源：互联网公开数据标签：编程问答, 自然语言处理, 文本分析, 标题生成, 内容摘要, 问答系统, 机器学习, 代码示例数据概述：该数据集包含来自Stack...

ZIP

Ge_ez_Based_文本抽取式摘要任务数据集

2026年2月1日 30 111 48

数据集概述本数据集为Ge'ez语言文本的抽取式摘要任务专用数据，包含一份Ge'ez语言的文本文件，主要用于自然语言处理领域的文本摘要算法训练与测试，支持对Ge'ez文本内容的结构化分析需求。文件详解文件名称：Geez_Text_120.xlsx 文件格式：XLSX...

ZIP

HTI_Based_草药靶点相互作用关系抽取数据集

2026年1月31日 30 92 16

数据集概述本数据集为草药靶点相互作用（HTI）关系抽取数据集，包含中文与英文两种语言的草药靶点相关数据及摘要文件，涉及草药治疗疾病的临床应用、靶点蛋白关联等信息，可用于草药与靶点相互作用的关系挖掘研究，总计包含4个文件。文件详解 HTI_abstracts_cn.json 文件格式：JSON...

ZIP

UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库

2026年1月29日 30 96 85

数据集概述本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容，主要用于训练抽象式文本摘要模型。数据集仅含一个文件，无目录结构，未划分训练/测试集、数据/标签集或原始/处理数据集，便于集中使用。文件详解文件名称：UCS-Dataset.xlsx 文件格式：XLSX...

ZIP

LibriTTS_Based_语音重音众包标注数据集_ICASSP2024

2026年1月21日 30 190 8

数据集概述本数据集为ICASSP 2024相关论文的配套数据，包含对LibriTTS数据集train-clean-100分区中三千六百二十六条...

ZIP

Gigatrue_Cleaned_英文摘要清理数据集

2025年12月23日 30 35 18

数据集概述该数据集是对Harvard/gigaword数据集的清理版本，添加了生成的数值，并使用truecase工具进行了大小写标准化处理。数据集包含1个PDF文件，无训练/测试、数据/标签或原始/处理数据的拆分，为摘要任务研究提供基础数据。文件详解文件名称: Gigatrue Slovak abstractive summarisation...

ZIP

议会公民身份法案讨论Voyant分析结果数据集

2025年12月20日 30 91 61

数据集概述本数据集是通过在线工具Voyant对加拿大众议院和参议院关于《公民身份法案》的议会讨论文本进行分析后生成的结果文件，包含词云、趋势图等多种可视化图表，反映讨论文本的核心词汇及趋势特征。文件详解该数据集包含6个PNG格式的可视化文件，具体说明如下： -...

ZIP

Gigatrue斯洛伐克语抽象摘要数据集

2025年12月19日 30 3 2

数据集概述本数据集为合成Gigaword数据集的斯洛伐克语翻译版本，基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成，专注于抽象摘要任务，为斯洛伐克语文本摘要研究提供数据支持。文件详解文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf 文件格式: PDF...

ZIP

过去十年语言学及相关领域发声研究元分析数据集

2025年12月15日 30 101 59

数据集概述该数据集包含过去十年语言学及相关领域发声研究元分析的支撑材料，涵盖研究论文摘要生成的Python代码、分析结果的电子表格压缩包及元分析报告文档，为发声研究领域的文献分析提供数据与工具支持。文件详解代码文件: BatchSummarizePhonation.py: Python格式代码文件，用于生成元分析中纳入文章的摘要压缩文件:...

ZIP

含参数单比特错误的OPUS_MT与T5模型生成文本数据集

2025年12月15日 30 24 18

数据集概述该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务，OPUS-MT基于IWSLT2017数据集完成汉英翻译任务，覆盖FP32和FP16两种量化版本模型的输出对比。文件详解该数据集包含四个模型版本目录及对应文件，具体说明如下： - 目录结构： -...

ZIP

CNN_YouTube标题_观看量与发布日期数据集

2025年12月13日 30 210 178

数据集概述该数据集包含CNN在YouTube平台的视频标题、观看量、发布日期等信息，通过Python的SiteScraper模块（基于Selenium）抓取，每周更新，可用于标题文本摘要及观看量与标题的相关性分析。文件详解该数据集包括两个文件，具体说明如下： - 数据文件: - Cleaned_Cnn.csv: CSV格式文件，包含字段： -...

ZIP

TFG系统评估大语言模型能力数据集

2025年12月7日 30 143 93

数据集概述本数据集包含名为“通过文本摘要与扩展循环实现大语言模型能力评估系统”的学位论文（TFG）所用的结果、图表及评估文件，整体以压缩包形式存储，为研究大语言模型能力评估方法提供数据支持。文件详解文件名称: TFG-FILES.zip 文件格式: ZIP压缩包（.zip）内容说明:...

ZIP

多语言合成出院小结数据集_基于心力衰竭临床病例

2025年12月6日 30 199 109

数据集概述该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结，覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译，旨在为临床自然语言处理系统提供训练与评估数据支持。文件详解根目录文件: MultiSynDS.zip: 压缩文件，包含数据集所有内容子目录结构:...

ZIP

抽取式摘要数据集

2025年11月29日 30 48 36

数据集概述该数据集包含一百篇英文文档，专为生成摘要任务创建，提供用于抽取式摘要研究的基础语料。数据集以单一压缩包形式存储，未划分训练测试、数据标签或原始处理子集。文件详解文件名称: ESSg_dataset.zip 文件格式: ZIP (.zip) 内容说明: 压缩包内包含一百篇英文文档，未提供具体字段映射信息，文件内部结构需解压后查看适用场景...

ZIP

学术论文数据集标题生成与标注数据集

2025年11月7日 30 102 55

学术论文数据集标题生成与标注数据集_Academic_Paper_Dataset_Title_Generation_and_Labeling 数据来源：互联网公开数据标签：学术论文, 标题生成, 数据集标注, 文本摘要, 自然语言处理, 机器学习, 命名实体识别, 文本匹配数据概述：...

ZIP

多领域论文摘要生成数据集

2025年10月25日 30 148 126

多领域论文摘要生成数据集_Multi_domain_Paper_Abstract_Generation_Dataset 数据来源：互联网公开数据标签：文本摘要, 论文摘要, 自然语言处理, 机器翻译, 深度学习, 文本生成, 多领域, 数据集数据概述：该数据集包含来自多个领域论文的文本数据，记录了论文的原文文本和对应的摘要。主要特征如下：...

ZIP

新闻文章摘要生成数据集

2025年10月19日 30 105 60

新闻文章摘要生成数据集_News_Article_Summarization_Dataset 数据来源：互联网公开数据标签：文本摘要, 自然语言处理, 机器翻译, 深度学习, 文本生成, 数据集, 语料库, 摘要生成数据概述：该数据集包含来自新闻文章及其对应的摘要数据，旨在用于训练和评估文本摘要模型。主要特征如下：...

ZIP

新闻文本摘要生成数据集

2025年10月17日 30 82 74

新闻文本摘要生成数据集_News_Text_Summarization_Dataset 数据来源：互联网公开数据标签：文本摘要, 自然语言处理, 机器翻译, 文本生成, 深度学习, 新闻分析, 语料库, 数据集构建数据概述：该数据集包含来自新闻报道的文本数据，记录了新闻标题、摘要、正文内容及其相关信息，主要用于文本摘要生成任务。主要特征如下：...