-
强化学习与人类反馈数据RLHF数据集-devanshumahapatra
强化学习与人类反馈数据RLHF数据集-devanshumahapatra 数据来源:互联网公开数据 标签:强化学习,人类反馈,数据集,自然语言处理,文本生成,模型训练,人工智能,语言模型 数据概述: 该数据集包含了用于强化学习与人类反馈(RLHF)技术的数据,主要用于训练语言模型,使其生成更符合人类偏好的文本。主要特征如下:... -
大规模语言模型增强数据集LLMAugmentedData-zhenghao97
大规模语言模型增强数据集LLMAugmentedData-zhenghao97 数据来源:互联网公开数据 标签:语言模型,数据集,数据增强,自然语言处理,文本生成,机器学习,文本分析,人工智能 数据概述: 该数据集包含由大规模语言模型(LLM)生成和增强的文本数据,旨在用于训练和评估各种自然语言处理(NLP)模型。主要特征如下:... -
自然语言处理入门数据集NLPStartedDataset-liangyou
自然语言处理入门数据集NLPStartedDataset-liangyou 数据来源:互联网公开数据 标签:自然语言处理,NLP,文本分析,机器学习,数据集,文本分类,情感分析,语言模型,入门 数据概述: 该数据集包含多个文本数据集,旨在帮助初学者入门自然语言处理领域。主要特征如下:... -
文本重写语料库句子对数据集ArgRewriteV2句子对数据集-nghtctrl
文本重写语料库句子对数据集ArgRewriteV2句子对数据集-nghtctrl 数据来源:互联网公开数据 标签:文本重写,数据集,自然语言处理,机器学习,文本生成,语言模型,对齐数据,语义分析 数据概述: 该数据集来自 ArgRewrite 项目,主要包含用于文本重写的句子对数据,适用于自然语言处理和机器学习任务。主要特征如下:... -
阿拉伯语文本分类数据集ArabicTextClassificationDataset-mustafahowr
阿拉伯语文本分类数据集ArabicTextClassificationDataset-mustafahowr 数据来源:互联网公开数据 标签:文本分类,自然语言处理,数据集,机器学习,情感分析,语言模型,机器翻译,阿拉伯语 数据概述: 该数据集包含阿拉伯语文本数据,记录了不同主题和类别的阿拉伯语文章,评论或文档。主要特征如下:... -
孟加拉语BERT语言模型预训练与基准测试数据集-reasat
孟加拉语BERT语言模型预训练与基准测试数据集-reasat 数据来源:互联网公开数据 标签:孟加拉语,BERT,语言模型,自然语言处理,预训练,基准测试,低资源语言 数据概述:... -
翻译测试数据集TranslatedTestDataset-sohammhatre112
翻译测试数据集TranslatedTestDataset-sohammhatre112 数据来源:互联网公开数据 标签:翻译,测试,数据集,自然语言处理,机器学习,语言模型,文本分析,人工智能 数据概述:该数据集包含来自互联网公开来源的翻译测试数据,记录了多个语言之间的文本翻译结果。主要特征如下:... -
大规模语言模型训练数据集LargeLanguageModelTrainingData-z1qz1q
大规模语言模型训练数据集LargeLanguageModelTrainingData-z1qz1q 数据来源:互联网公开数据 标签:自然语言处理,机器学习,数据集,文本数据,语言模型,预训练,文本生成,深度学习 数据概述: 该数据集包含大规模的文本数据,主要用于训练大型语言模型。主要特征如下:... -
基特韦新闻语言模型数据集KitweNewsLLMDataset-kavinnan
基特韦新闻语言模型数据集KitweNewsLLMDataset-kavinnan 数据来源:互联网公开数据 标签:新闻,语言模型,数据集,自然语言处理,机器学习,文本分析,信息提取,非洲研究 数据概述:该数据集包含来自赞比亚基特韦地区新闻媒体的文本数据,记录了该地区最新的新闻报道和事件。主要特征如下:... -
超大规模对话训练数据集Ultrachat训练数据集-mingky11
超大规模对话训练数据集Ultrachat训练数据集-mingky11 数据来源:互联网公开数据 标签:对话数据,自然语言处理,数据集,机器学习,人工智能,对话系统,语言模型,训练数据 数据概述:该数据集包含来自多个来源的超大规模对话数据,记录了不同场景下的对话内容。主要特征如下: 时间跨度:数据记录的时间范围从2018年到2023年。... -
ChatGPT模型评估数据集ChatGPTModelEvaluationDataset-nishathmhd
ChatGPT模型评估数据集ChatGPTModelEvaluationDataset-nishathmhd 数据来源:互联网公开数据 标签:自然语言处理,模型评估,数据集,机器学习,人工智能,语言模型,对话系统,质量评估 数据概述: 该数据集包含来自ChatGPT模型的评估数据,记录了模型在不同任务中的表现和评估结果。主要特征如下:... -
合成虚拟人物对话数据集SyntheticPersonaChatDataset-kawinduwijewardhane
合成虚拟人物对话数据集SyntheticPersonaChatDataset-kawinduwijewardhane 数据来源:互联网公开数据 标签:自然语言处理,对话系统,数据集,机器学习,人工智能,聊天机器人,虚拟人物,语言模型 数据概述: 该数据集包含合成虚拟人物的对话数据,记录了不同虚拟人物之间的自然语言对话内容。主要特征如下:... -
吉米尼生成论文数据集-2023-mouadberqia
吉米尼生成论文数据集-2023-mouadberqia 数据来源:互联网公开数据 标签:吉米尼模型,人工智能,生成文本,论文,写作竞赛,数据集,语言模型,文本检测 数据概述: 本数据集包含了由最新吉米尼Pro模型生成的120篇论文。这些论文是根据“LLM - Detect AI Generated... -
语言模型诗歌生成数据集-100首诗歌-2023年-imbikramsaha
语言模型诗歌生成数据集-100首诗歌-2023年-imbikramsaha 数据来源:互联网公开数据 标签:诗歌,语言模型,NLP,文本生成,机器学习,教育,学习资源 数据概述: 本数据集包含100首诗歌,适用于语言模型的文本生成任务。数据集中的诗歌涵盖了不同的风格和主题,包括抒情诗、叙事诗和自由诗等,为训练语言模型提供了丰富的文本素材。... -
英语模板数据集EnglishTemplatedDataset-rnaveensrinivas
英语模板数据集EnglishTemplatedDataset-rnaveensrinivas 数据来源:互联网公开数据 标签:英语学习,文本分析,数据集,自然语言处理,语言模型,文本生成,语料库,写作辅助 数据概述: 该数据集包含来自各种来源的英语文本数据,旨在为英语学习和自然语言处理研究提供支持。主要特征如下:... -
自然语言处理NLP神经机器翻译数据集NN-NLPNeuralMachineTranslationDataset-tarekelkhateb
自然语言处理NLP神经机器翻译数据集NN-NLPNeuralMachineTranslationDataset-tarekelkhateb 数据来源:互联网公开数据 标签:自然语言处理,机器翻译,数据集,深度学习,神经网络,文本处理,语言模型,翻译模型 数据概述:... -
词性标注数据集POSTaggingDataset-hiuanh
词性标注数据集POSTaggingDataset-hiuanh 数据来源:互联网公开数据 标签:自然语言处理,词性标注,数据集,文本分析,机器学习,语言模型,文本挖掘,计算机语言学 数据概述: 该数据集专注于词性标注任务,包含大量文本样本及其对应的词性标签。主要特征如下: 时间跨度:数据记录的时间范围未明确,但数据集内容通常反映通用语言特征。... -
莫里哀戏剧台词数据集-guillaumegrosjean
莫里哀戏剧台词数据集-guillaumegrosjean 数据来源:互联网公开数据 标签:戏剧,文学,莫里哀,台词,表演,语言模型,文本分析,法国古典主义,剧本 数据概述: 本数据集收录了莫里哀创作的32部戏剧作品中的所有台词提示(cue)。数据集以.csv文件形式存储,包含6个字段,详细描述了每句台词的上下文信息。 数据结构:... -
十大说唱歌手作品文本分析数据集-2023-ngxdtv
十大说唱歌手作品文本分析数据集-2023-ngxdtv 数据来源:互联网公开数据 标签:说唱音乐,文本分析,自然语言处理,机器学习,文本分类,情感分析,主题建模,文本生成,语言模型,语音识别 数据概述: 本数据集包含超过2600首由十个不同说唱歌手创作的作品文本,其中包括Ali As、Alligatoah、Kollegah和Kool... -
阿拉伯语句子数据集ArabicSentencesDataset-ahmedtaha8889
阿拉伯语句子数据集ArabicSentencesDataset-ahmedtaha8889 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,数据集,文本分析,机器翻译,语言模型,文本语料库,语言学 数据概述: 该数据集包含超过70万条阿拉伯语句子,旨在为自然语言处理(NLP)任务提供丰富的文本语料库。主要特征如下:...