找到748个数据集

标签: 文本生成

过滤结果
  • 文本预训练语料库小说数据集

    2026年2月17日 30 20 0

    文本预训练语料库小说数据集_Text_Pre_training_Corpus_Novel_Dataset 数据来源:互联网公开数据 标签:文本预训练, 自然语言处理, 语料库, 文本生成, 机器学习, 情感分析, 文本摘要, 语言模型 数据概述: 该数据集包含来自文学作品的文本数据,用于文本预训练任务。主要特征如下:...
    packageimg
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 30 13 7

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • OEDILF_Based_计算诗学用人类创作打油诗数据集_v3

    2026年1月28日 30 148 38

    数据集概述 本数据集包含从The Omnificent English Dictionary In Limerick...
    packageimg
  • generated_texts_Based_生物基因NLP微调模型评估数据

    2026年1月21日 30 169 70

    数据集概述 本数据集包含用于模型评估的微调模型生成文本,核心围绕生物基因领域的NLP文本生成任务。数据集仅含1个JSON格式文件,无训练/测试、数据/标签或原始/处理数据划分,无目录层级结构,是生物基因NLP模型评估的专用文本资源。 文件详解 文件名称:generated_texts.json 文件格式:JSON...
    packageimg
  • CER_UQAC_2023_1326_基于文本生成的用户故事质量提升实验数据

    2026年1月20日 30 119 18

    数据集概述 本数据集包含受控实验CER-UQAC 2023-1326参与者撰写的所有用户故事,旨在支持基于文本生成技术提升用户故事质量的研究。数据集仅含一个文件,无目录层级或数据拆分。 文件详解 文件名称:Participants Results v2.xlsx 文件格式:XLSX...
    packageimg
  • ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1

    2026年1月20日 30 29 5

    数据集概述 本数据集为ArchiMob语料库Release 1,包含瑞士境内使用的德语变体口语转录文本,是首个瑞士德语长文本电子资源,总规模达528381个词元,可用于形态句法特征空间分布研究及自然语言处理任务。 文件详解 文件名称:ArchiMob_Release1_160812.zip 文件格式:ZIP(压缩包)...
    packageimg
  • M3NSCT5_Based_Stack_Overflow帖子多样化标题生成实验数据集

    2026年1月18日 30 182 12

    数据集概述 本数据集是论文“Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer”的配套数据,包含训练、验证、测试三类文件,覆盖八种编程语言的Stack...
    packageimg
  • FoodSky_FoodEarth_Based_食品领域大语言模型与基础语料数据集

    2026年1月15日 30 156 90

    数据集概述 本数据集包含食品领域大语言模型FoodSky及配套基础语料数据集FoodEarth。FoodEarth从权威来源构建,支持FoodSky实现食品数据的细粒度感知与推理;FoodSky通过特定算法优化语义捕捉与文本生成能力,在厨师考试和营养师考试中表现优于通用大语言模型,可用于食品智能相关任务。 文件详解 FoodSky-main.zip...
    packageimg
  • Webis_ConcluGen_Based_2021结论生成语料库_Patch1_0_1

    2026年1月13日 30 157 76

    数据集概述 本数据集为Webis-ConcluGen-2021结论生成语料库,包含约13万组论证文本与结论配对数据,分为base、topic、targets、aspects四种变体,每种变体含训练、验证、测试文件,还提供自动评估测试集与人工评估用测试集,便于定量与定性分析。 文件详解 文件名称:webis-...
    packageimg
  • 圣诞BMJ标题生成的人工智能观测研究数据集

    2025年12月21日 30 196 113

    数据集概述 本数据集包含用于研究“幽灵在机器中还是打字机前的猴子——使用人工智能生成圣诞BMJ标题”的相关数据与分析脚本,为该观测研究提供完整的数据支撑。 文件详解 文件名称: 3_analysisScript.rmd 文件格式: .rmd 内容说明: R语言Markdown格式的分析脚本,用于处理和分析研究数据 文件名称:...
    packageimg
  • BabelCoder_代理代码翻译与规范对齐数据集

    2025年12月21日 30 74 39

    数据集概述 该数据集围绕“代理代码翻译与规范对齐”主题构建,包含一个压缩文件,可能涉及代码翻译任务中代理机制与规范对齐方法的相关数据,未明确划分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称: dataset.zip 文件格式: ZIP压缩包(.zip) 内容说明: 压缩包内具体文件结构及内容未提供预览,需解压后查看。 适用场景...
    packageimg
  • AKT_NUTQIDA_AUTENTIK_MATNLAR_YARATISHDA_SOHAGA_BO_LGAN_LEKSIK_BIRLIKLARDAN_FO...

    2025年12月20日 30 153 15

    数据集概述 本数据集围绕在真实文本创作中使用专业领域词汇单元的可能性展开,核心内容为相关研究文档,以PDF格式呈现,为探究领域词汇在文本生成中的应用提供资料支持。 文件详解 文件名称: Ibragimova Muharram.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 可用性相关缺陷的大语言模型数据集

    2025年12月6日 30 84 24

    数据集概述 该数据集围绕大语言模型在可用性相关缺陷中的应用,包含真实数据、提示词、原始数据及可用性修复相关内容,为研究大语言模型处理可用性缺陷的表现提供数据支持。 文件详解 文件名称: Data.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含四类核心数据:真实数据(Ground-truth...
    packageimg
  • 含参数单比特错误的OPUS_MT与T5模型生成文本数据集

    2025年12月15日 30 99 39

    数据集概述 该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务,OPUS-MT基于IWSLT2017数据集完成汉英翻译任务,覆盖FP32和FP16两种量化版本模型的输出对比。 文件详解 该数据集包含四个模型版本目录及对应文件,具体说明如下: - 目录结构: -...
    packageimg
  • Text2KGBench本体驱动文本生成知识图谱基准数据集

    2025年12月13日 30 92 41

    数据集概述 该数据集是用于评估语言模型在本体引导下从文本生成知识图谱能力的基准,包含Wikidata-TekGen(十个本体、一万三千四百七十四句)和DBpedia-WebNLG(十九个本体、四千八百六十句)两个子数据集,遵循本体约束提取文本事实。 文件详解 数据集以压缩包形式提供,内部结构及内容如下: - 压缩包文件:...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日 30 166 101

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • 语义相关性句子对数据集2023

    2025年12月9日 30 32 13

    数据集概述 该数据集包含五千五百个英文句子对,每个句子对依据语义相关程度被赋予零到一的评分,零代表最不相关,一代表最相关。数据通过最佳最差标度法(Best-Worst Scaling)收集,旨在支持句子语义相关性、句子表示方法及相关应用的研究。 文件详解 核心数据文件: sem_text_rel_ranked.csv:...
    packageimg
  • 多语言合成出院小结数据集_基于心力衰竭临床病例

    2025年12月6日 30 100 46

    数据集概述 该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结,覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译,旨在为临床自然语言处理系统提供训练与评估数据支持。 文件详解 根目录文件: MultiSynDS.zip: 压缩文件,包含数据集所有内容 子目录结构:...
    packageimg
  • Graphine_图感知术语定义生成数据集

    2025年12月4日 30 89 64

    数据集概述 该数据集是EMNLP 2021论文的配套数据,用于支持图感知术语定义生成任务的研究。数据集以压缩包形式提供,包含完成相关任务所需的全部数据内容,具体格式需参考压缩包内的说明文档。 文件详解 文件名称: Graphine.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 法语文本生成与翻译评估数据集

    2025年11月19日 30 74 15

    法语文本生成与翻译评估数据集_French_Text_Generation_and_Translation_Evaluation_Dataset 数据来源:互联网公开数据 标签:文本生成, 机器翻译, 法语, 文本评估, 语言模型, 自然语言处理, 文本比较, 数据集 数据概述:...
    packageimg