找到743个数据集

标签: 语言模型

过滤结果
  • LLM恢复对齐数据集

    2025年4月14日   

    LLM恢复对齐数据集 数据来源:互联网公开数据 标签:语言模型,恢复对齐,自然语言处理,NLP,生成模型,对齐评估,文本生成 数据概述 本数据集由Gemma-7b-it模型生成,使用最大token长度设置为256。数据集包含两部分内容:原始文本(document)和重写文本(rewritten)。原始文本来源于Hugging...
    packageimg
  • 写作训练数据集

    2025年4月14日   

    写作训练数据集 数据来源:互联网公开数据 标签:写作训练,学生作文,人工智能生成文本,语言模型,竞赛数据,文本检测 数据概述: 本数据集包含约1398篇作文,其中包括学生撰写的作品和大型语言模型(LLM)生成的文本。该数据集专为“LLM -...
    packageimg
  • 印度法律与法案数据集1074-至今

    2025年4月14日   

    印度法律与法案数据集1074-至今 数据来源:互联网公开数据 标签:印度法律,法案,历史,法律研究,文本分析,语言模型,政策分析 数据概述:...
    packageimg
  • ChatGPT-4问答训练数据集-多领域问答场景

    2025年4月14日   

    ChatGPT-4问答训练数据集-多领域问答场景 数据来源:互联网公开数据 标签:ChatGPT, GPT-4, 问答, 语言模型, 训练数据, 自然语言处理, 人工智能, 机器学习, 文本生成 数据概述:...
    packageimg
  • 摩洛哥阿拉伯语Darija语言任务与平行翻译数据集

    2025年4月14日   

    摩洛哥阿拉伯语Darija语言任务与平行翻译数据集 数据来源:互联网公开数据 标签:摩洛哥阿拉伯语, Darija, 机器翻译, 语言模型, 平行语料库, 自然语言处理, 多语言学习 数据概述:...
    packageimg
  • 小学数学难题训练数据集-小学阶段数学问题

    2025年4月14日   

    小学数学难题训练数据集-小学阶段数学问题 数据来源:互联网公开数据 标签:数学问题,小学教育,逻辑推理,语言模型,教育数据集,GSM8K,数学训练 数据概述: 本数据集包含一系列小学阶段的数学问题,旨在评估和提高语言模型的数学推理能力。该数据集是GSM8K的一个更具挑战性的变体,通过将数字替换为更大且较少遇到的数值来增加难度。 数据格式:...
    packageimg
  • 德语英语神经机器翻译数据集

    2025年4月14日   

    德语英语神经机器翻译数据集 数据来源:互联网公开数据 标签:神经机器翻译,德语,英语,数据预处理,文本翻译,语言模型 数据概述:...
    packageimg
  • 俄语关系抽取Rebel数据集去重合并版

    2025年4月14日   

    俄语关系抽取Rebel数据集去重合并版 数据来源:互联网公开数据 标签:俄语,关系抽取,自然语言处理,文本数据,机器学习,Rebel,数据集,语言模型 数据概述: 本数据集为俄语版Rebel数据集,用于关系抽取任务。原始数据集由Hugging...
    packageimg
  • 耐克产品描述数据集

    2025年4月14日   

    耐克产品描述数据集 数据来源:互联网公开数据 标签:耐克,产品描述,自然语言处理,语言模型,训练数据,电子商务,文本分析 数据概述: 本数据集包含从耐克官方网站抓取的400个耐克产品的详细描述信息,包括产品标题、副标题和产品描述三个字段。数据采用CSV格式存储,每一行代表一个产品的相关信息。 数据用途概述:...
    packageimg
  • BBC印地语新闻文章数据集

    2025年4月14日   

    BBC印地语新闻文章数据集 数据来源:互联网公开数据 标签:印地语新闻,新闻文本,自然语言处理,NLP,情感分析,语言模型,新闻分类 数据概述: 本数据集包含通过Python网络爬虫技术从BBC印地语新闻网站采集的大量新闻文章,涵盖了多个新闻类别。每个新闻条目包含以下三个核心字段: 标题(Headline):新闻文章的标题,用于概括新闻的主要内容。...
    packageimg
  • 自然语言推理内容效应数据集

    2025年4月14日   

    自然语言推理内容效应数据集 数据来源:互联网公开数据 标签:自然语言推理,语言模型,人类推理,内容效应,逻辑推理,机器学习,人工智能,数据科学 数据概述:...
    packageimg
  • 阿拉伯谚语集合数据集

    2025年4月14日   

    阿拉伯谚语集合数据集 数据来源:互联网公开数据 标签:阿拉伯语,谚语,语言模型,文化研究,社会传统,语言学分析,文本挖掘 数据概述: 本数据集是一个全面的阿拉伯谚语集合,包含古典阿拉伯语、 colloquial阿拉伯语和流行阿拉伯语中的谚语及其解释。古典阿拉伯语部分源自Abi al-Fadl al-Maydani al-Nisaburi的《Majma'...
    packageimg
  • 孟加拉语仇恨言论翻译数据集

    2025年4月14日   

    孟加拉语仇恨言论翻译数据集 数据来源:互联网公开数据 标签:仇恨言论,孟加拉语,翻译,语言模型,多语言分析,文本分类,模型评估 数据概述:...
    packageimg
  • 神经机器翻译-玉刚数据集

    2025年4月14日   

    神经机器翻译-玉刚数据集 数据来源:互联网公开数据 标签:神经机器翻译,玉刚,语言模型,数据集,机器翻译,自然语言处理,翻译质量评估 数据概述: 本数据集包含约12,000个玉刚语言的 instructional...
    packageimg
  • 翻译数学问题数据集

    2025年4月14日   

    翻译数学问题数据集 数据来源:互联网公开数据 标签:数学问题,翻译, Bengali, English, 语言模型, 机器翻译, 取回增强生成, 少样本学习 数据概述:...
    packageimg
  • 蛋白质与RNA研究文本数据集2023

    2025年4月14日   

    蛋白质与RNA研究文本数据集2023 数据来源:互联网公开数据 标签:蛋白质, RNA, 医学研究, 数据挖掘, 机器学习, 语言模型, 生物信息学, 药物开发, 疫苗研究 数据概述: 本数据集包含从Wikipedia...
    packageimg
  • 文本编辑数据集

    2025年4月14日   

    文本编辑数据集 数据来源:互联网公开数据 标签:文本编辑,机器学习,自然语言处理,语法检查,语言模型,训练数据,数据标注 数据概述:...
    packageimg
  • 乌兹别克斯坦宪法NLP数据集

    2025年4月14日   

    乌兹别克斯坦宪法NLP数据集 数据来源:互联网公开数据 标签:乌兹别克斯坦宪法,自然语言处理,NLP,乌兹别克语,自动纠正,拼写检查,语言模型 数据概述: 本数据集来源于我的YouTube频道的直播内容,旨在为乌兹别克语(O'zbek语)创建一个自动纠正(拼写检查)的概率模型。数据集包含了乌兹别克斯坦宪法的文本,为训练语言模型提供了基础。...
    packageimg
  • 分钟悬疑侦探图数据集

    2025年4月14日   

    分钟悬疑侦探图数据集 数据来源:互联网公开数据 标签:文本谜题,推理,悬疑,文学,人工智能,语言模型,游戏开发 数据概述: 分钟悬疑侦探图(Minute...
    packageimg
  • 多语言复杂问答数据集-涵盖8种语言

    2025年4月14日   

    多语言复杂问答数据集-涵盖8种语言 数据来源:互联网公开数据 标签:多语言,问答,自然语言处理,NLP,机器翻译,语言模型,数据集,复杂问题,文本分析 数据概述: 本数据集由Hugging Face...
    packageimg