找到743个数据集

标签: 语言模型

过滤结果
  • 泰卢固语新闻文本数据集-语言模型训练-合并数据集

    2025年4月17日   

    泰卢固语新闻文本数据集-语言模型训练-合并数据集 数据来源:互联网公开数据 标签:泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据 数据概述: 本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成,整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容,涵盖了各种主题和风格。 数据用途概述:...
    packageimg
  • 高质量多语言翻译数据集

    2025年4月17日   

    高质量多语言翻译数据集 数据来源:互联网公开数据 标签:多语言翻译,机器学习,文本处理,自然语言处理,语言模型,国际业务,跨文化交流 数据概述:...
    packageimg
  • 德语新闻文章主题分类数据集

    2025年4月16日   

    德语新闻文章主题分类数据集 数据来源:互联网公开数据 标签:德语,新闻,主题分类,多分类,语言模型,文本分类,研究数据集 数据概述:...
    packageimg
  • 开放域问答数据集-问题与答案-2023年

    2025年4月15日   

    开放域问答数据集-问题与答案-2023年 数据来源:互联网公开数据 标签:问答,自然语言处理,NLP,文本数据,QA,问题解答,知识库,语言模型,机器学习 数据概述: 本数据集包含大量的问题与答案对,旨在为开放域问答(QA, Question...
    packageimg
  • 英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印

    2025年4月15日   

    英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印 数据来源:互联网公开数据 标签:语言模型,自然语言处理,机器翻译,印地语,文本生成,指令,NVIDIA,HelpSteer,数据集 数据概述: 本数据集是NVIDIA...
    packageimg
  • 土耳其语诗歌文本生成数据集

    2025年4月15日   

    土耳其语诗歌文本生成数据集 数据来源:互联网公开数据 标签:土耳其语,诗歌,文本生成,自然语言处理,NLP,诗歌创作,语言模型,文学 数据概述: 本数据集包含了7本土耳其语诗歌书籍,数据将每本书的诗歌内容拼接成一个单独的文本列。这些诗歌涵盖了不同的主题和风格,反映了土耳其文学的多样性。 数据用途概述:...
    packageimg
  • 社区电视节目台词数据集1963-2021

    2025年4月15日   

    社区电视节目台词数据集1963-2021 数据来源:互联网公开数据 标签:社区电视节目,台词,语言模型,文本分析,电视剧研究,文化研究,历史背景 数据概述: 本数据集收录了某社区电视节目的全部台词记录,涵盖了从1963年至2021年间的多个季度和剧集。数据集通过网络爬虫技术收集,为研究该节目提供了全面的台词文本资料,适合进行语言模型训练和文本分析。...
    packageimg
  • 语言模型对比数据集

    2025年4月15日   

    语言模型对比数据集 数据来源:互联网公开数据 标签:语言模型,对比分析,问答系统,Govinfo,正确答案,模型性能 数据概述: 本数据集包含从Govinfo网站收集的90个问题及其正确答案,并附录了五个不同语言模型对这些问题的回答。数据集涵盖了问题陈述、正确答案以及DeepSeek R1 14b qwen distill、Llama3.1...
    packageimg
  • 孟加拉语日常对话数据集

    2025年4月15日   

    孟加拉语日常对话数据集 数据来源:互联网公开数据 标签:孟加拉语,日常对话,语言模型,自然对话,语境感知,人类交流,对话数据集,文本分析,人工智能 数据概述: 本数据集旨在解决为自然、语境感知且类人对话调整语言模型的挑战。数据集包含超过20,000次对话,全面展示了孟加拉国的各种日常生活情境下的交流,涵盖了广泛的社会互动场景。...
    packageimg
  • 星际编码器自指令数据集-自然语言处理指令生成-2024

    2025年4月15日   

    星际编码器自指令数据集-自然语言处理指令生成-2024 数据来源:互联网公开数据 标签:自然语言处理,指令生成,语言模型,机器学习,数据集,星际编码器,Stanford Alpaca,CC0 数据概述:...
    packageimg
  • 生成式AI推特数据集10K

    2025年4月15日   

    生成式AI推特数据集10K 数据来源:互联网公开数据 标签:生成式AI,推特数据,自然语言处理,情感分析,语言模型,ChatGPT,Google Bard,多样化内容,现实对话 数据概述: 本数据集收录了超过10,000条由高级语言模型(包括ChatGPT和Google...
    packageimg
  • 中文机器阅读理解数据集2018

    2025年4月15日   

    中文机器阅读理解数据集2018 数据来源:互联网公开数据 标签:机器阅读理解,中文,NLP,问答系统,文本理解,文本推理,语言模型 数据概述:...
    packageimg
  • 德语英语翻译数据集255817样本

    2025年4月15日   

    德语英语翻译数据集255817样本 数据来源:互联网公开数据 标签:德语,英语,翻译,自然语言处理,深度学习,数据预处理,语言模型 数据概述:...
    packageimg
  • 纳粹相关言论数据集1960-2023

    2025年4月15日   

    纳粹相关言论数据集1960-2023 数据来源:互联网公开数据 标签:纳粹言论,Alt-Right, offensive data, 恶意内容, 语言模型, 数据预处理, 滥用检测 数据概述: 本数据集收录了1960年至2023年间与纳粹相关、Alt-...
    packageimg
  • 宇宙新闻数据集2024年5月

    2025年4月15日   

    宇宙新闻数据集2024年5月 数据来源:互联网公开数据 标签:宇宙新闻,太空行业,商业,民用,发射,军事,意见文章,自然语言处理,语言模型 数据概述:...
    packageimg
  • 瓦森选择任务数据集

    2025年4月15日   

    瓦森选择任务数据集 数据来源:互联网公开数据 标签:瓦森选择任务,逻辑推理,语言模型,人类推理,内容效应,心理学,机器学习 数据概述:...
    packageimg
  • 西班牙语-英语翻译语料库数据集

    2025年4月15日   

    西班牙语-英语翻译语料库数据集 数据来源:互联网公开数据 标签:西班牙语,英语,翻译,机器翻译,语言模型,自然语言处理,跨语言文本 数据概述:...
    packageimg
  • 逻辑推理能力提升数据集1963-2021

    2025年4月15日   

    逻辑推理能力提升数据集1963-2021 数据来源:互联网公开数据 标签:逻辑推理,语言模型,训练数据,LLM,Platypus2,机器学习,教育 数据概述: 本数据集由garage-...
    packageimg
  • 归纳推理数据集

    2025年4月15日   

    归纳推理数据集 数据来源:互联网公开数据 标签:归纳推理,语言模型,逻辑推理,人类行为,语义内容,机器学习,数据科学 数据概述: 本数据集包含了用于研究语言模型在归纳推理任务中表现的数据。数据集来源于PNAS/Nexus期刊上Andrew K....
    packageimg
  • 卡纳达语数据集

    2025年4月14日   

    卡纳达语数据集 数据来源:互联网公开数据 标签:卡纳达语,自然语言处理,NLP,语言模型,多样文本,精细调优,古吉拉特语 数据概述...
    packageimg