-
Ge_ez_Based_文本抽取式摘要任务数据集
2026年2月1日 30 118 62
数据集概述 本数据集为Ge'ez语言文本的抽取式摘要任务专用数据,包含一份Ge'ez语言的文本文件,主要用于自然语言处理领域的文本摘要算法训练与测试,支持对Ge'ez文本内容的结构化分析需求。 文件详解 文件名称:Geez_Text_120.xlsx 文件格式:XLSX...
-
HTI_Based_草药靶点相互作用关系抽取数据集
2026年1月31日 30 144 83
数据集概述 本数据集为草药靶点相互作用(HTI)关系抽取数据集,包含中文与英文两种语言的草药靶点相关数据及摘要文件,涉及草药治疗疾病的临床应用、靶点蛋白关联等信息,可用于草药与靶点相互作用的关系挖掘研究,总计包含4个文件。 文件详解 HTI_abstracts_cn.json 文件格式:JSON...
-
UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库
2026年1月29日 30 78 23
数据集概述 本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容,主要用于训练抽象式文本摘要模型。数据集仅含一个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,便于集中使用。 文件详解 文件名称:UCS-Dataset.xlsx 文件格式:XLSX...
-
LibriTTS_Based_语音重音众包标注数据集_ICASSP2024
2026年1月21日 30 98 44
数据集概述 本数据集为ICASSP 2024相关论文的配套数据,包含对LibriTTS数据集train-clean-100分区中三千六百二十六条...
-
Gigatrue_Cleaned_英文摘要清理数据集
2025年12月23日 30 134 50
数据集概述 该数据集是对Harvard/gigaword数据集的清理版本,添加了生成的数值,并使用truecase工具进行了大小写标准化处理。数据集包含1个PDF文件,无训练/测试、数据/标签或原始/处理数据的拆分,为摘要任务研究提供基础数据。 文件详解 文件名称: Gigatrue Slovak abstractive summarisation...
-
议会公民身份法案讨论Voyant分析结果数据集
2025年12月20日 30 188 86
数据集概述 本数据集是通过在线工具Voyant对加拿大众议院和参议院关于《公民身份法案》的议会讨论文本进行分析后生成的结果文件,包含词云、趋势图等多种可视化图表,反映讨论文本的核心词汇及趋势特征。 文件详解 该数据集包含6个PNG格式的可视化文件,具体说明如下: -...
-
Gigatrue斯洛伐克语抽象摘要数据集
2025年12月19日 30 10 8
数据集概述 本数据集为合成Gigaword数据集的斯洛伐克语翻译版本,基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成,专注于抽象摘要任务,为斯洛伐克语文本摘要研究提供数据支持。 文件详解 文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf 文件格式: PDF...
-
过去十年语言学及相关领域发声研究元分析数据集
2025年12月15日 30 145 118
数据集概述 该数据集包含过去十年语言学及相关领域发声研究元分析的支撑材料,涵盖研究论文摘要生成的Python代码、分析结果的电子表格压缩包及元分析报告文档,为发声研究领域的文献分析提供数据与工具支持。 文件详解 代码文件: BatchSummarizePhonation.py: Python格式代码文件,用于生成元分析中纳入文章的摘要 压缩文件:...
-
含参数单比特错误的OPUS_MT与T5模型生成文本数据集
2025年12月15日 30 43 2
数据集概述 该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务,OPUS-MT基于IWSLT2017数据集完成汉英翻译任务,覆盖FP32和FP16两种量化版本模型的输出对比。 文件详解 该数据集包含四个模型版本目录及对应文件,具体说明如下: - 目录结构: -...
-
CNN_YouTube标题_观看量与发布日期数据集
2025年12月13日 30 16 3
数据集概述 该数据集包含CNN在YouTube平台的视频标题、观看量、发布日期等信息,通过Python的SiteScraper模块(基于Selenium)抓取,每周更新,可用于标题文本摘要及观看量与标题的相关性分析。 文件详解 该数据集包括两个文件,具体说明如下: - 数据文件: - Cleaned_Cnn.csv: CSV格式文件,包含字段: -...
-
TFG系统评估大语言模型能力数据集
2025年12月7日 30 195 168
数据集概述 本数据集包含名为“通过文本摘要与扩展循环实现大语言模型能力评估系统”的学位论文(TFG)所用的结果、图表及评估文件,整体以压缩包形式存储,为研究大语言模型能力评估方法提供数据支持。 文件详解 文件名称: TFG-FILES.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
多语言合成出院小结数据集_基于心力衰竭临床病例
2025年12月6日 30 134 65
数据集概述 该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结,覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译,旨在为临床自然语言处理系统提供训练与评估数据支持。 文件详解 根目录文件: MultiSynDS.zip: 压缩文件,包含数据集所有内容 子目录结构:...
-
抽取式摘要数据集
2025年11月29日 30 117 11
数据集概述 该数据集包含一百篇英文文档,专为生成摘要任务创建,提供用于抽取式摘要研究的基础语料。数据集以单一压缩包形式存储,未划分训练测试、数据标签或原始处理子集。 文件详解 文件名称: ESSg_dataset.zip 文件格式: ZIP (.zip) 内容说明: 压缩包内包含一百篇英文文档,未提供具体字段映射信息,文件内部结构需解压后查看 适用场景...
-
学术论文数据集标题生成与标注数据集
2025年11月7日 30 166 16
学术论文数据集标题生成与标注数据集_Academic_Paper_Dataset_Title_Generation_and_Labeling 数据来源:互联网公开数据 标签:学术论文, 标题生成, 数据集标注, 文本摘要, 自然语言处理, 机器学习, 命名实体识别, 文本匹配 数据概述:...
-
多领域论文摘要生成数据集
2025年10月25日 30 127 126
多领域论文摘要生成数据集_Multi_domain_Paper_Abstract_Generation_Dataset 数据来源:互联网公开数据 标签:文本摘要, 论文摘要, 自然语言处理, 机器翻译, 深度学习, 文本生成, 多领域, 数据集 数据概述: 该数据集包含来自多个领域论文的文本数据,记录了论文的原文文本和对应的摘要。主要特征如下:...
-
新闻文章摘要生成数据集
2025年10月19日 30 2 0
新闻文章摘要生成数据集_News_Article_Summarization_Dataset 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 机器翻译, 深度学习, 文本生成, 数据集, 语料库, 摘要生成 数据概述: 该数据集包含来自新闻文章及其对应的摘要数据,旨在用于训练和评估文本摘要模型。主要特征如下:...
-
新闻文本摘要生成数据集
2025年10月17日 30 94 39
新闻文本摘要生成数据集_News_Text_Summarization_Dataset 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 机器翻译, 文本生成, 深度学习, 新闻分析, 语料库, 数据集构建 数据概述: 该数据集包含来自新闻报道的文本数据,记录了新闻标题、摘要、正文内容及其相关信息,主要用于文本摘要生成任务。主要特征如下:...
-
金融领域问答与文本摘要数据集
2025年10月16日 30 146 37
金融领域问答与文本摘要数据集_Financial_Question_Answering_and_Text_Summarization 数据来源:互联网公开数据 标签:金融, 问答系统, 文本摘要, 知识检索, 信息抽取, 机器学习, 自然语言处理, 文本分析 数据概述:...
-
新闻摘要生成文章数据集
2025年10月9日 30 67 64
新闻摘要生成文章数据集_News_Article_Summarization_Dataset 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 新闻文章, 机器翻译, 深度学习, 文本生成, 数据集, 摘要生成 数据概述: 该数据集包含来自新闻网站的文章及其对应的摘要,旨在用于训练和评估文本摘要模型。主要特征如下:...
-
越南新闻文章内容分词与处理数据集
2025年10月5日 30 131 49
越南新闻文章内容分词与处理数据集_Vietnamese_News_Articles_Content_Segmentation_and_Processing 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 越南语, 分词, 新闻文章, 文本摘要, 信息抽取, 语言模型 数据概述:...



