数据集 - 海数据

文本生成对话语料数据集TextGenerationDialogueCorpus-terrychanorg

2025年5月29日

文本生成对话语料数据集TextGenerationDialogueCorpus-terrychanorg 数据来源：互联网公开数据标签：文本生成, 对话系统, 语料库, 自然语言处理, 文本摘要, 机器翻译, 语言模型, 数据集数据概述：该数据集包含多个CSV文件，记录了用于文本生成和对话系统训练的语料。主要特征如下：...

ZIP

大型语言模型70k语境数据集LLM70kContextDataset-sugupoko

2025年5月29日

大型语言模型70k语境数据集LLM70kContextDataset-sugupoko 数据来源：互联网公开数据标签：语言模型，自然语言处理，数据集，机器学习，文本生成，深度学习，人工智能，自然语言理解数据概述：该数据集包含来自大型语言模型训练的数据，记录了包含语境的文本样本。主要特征如下：时间跨度：数据记录的时间范围从近期到当前。...

ZIP

英文文档语料库数据集-ashwanillkagechaad

2025年5月29日

英文文档语料库数据集-ashwanillkagechaad 数据来源：互联网公开数据标签：文本分析，自然语言处理，数据集，英文，文档，语料库，语言模型，文本挖掘数据概述：该数据集包含大量的英文文档，涵盖了多种主题和来源。主要特征如下：时间跨度：数据记录的时间范围不固定，取决于文档的发布时间。地理范围：数据来源广泛，覆盖全球范围内的英文文档。...

ZIP

多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung

2025年5月29日

多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung 数据来源：互联网公开数据标签：自然语言处理，文本摘要，数据集，新闻，机器学习，信息检索，深度学习，语言模型数据概述：该数据集包含来自新闻网站的多个新闻报道及其对应的摘要，旨在用于文本摘要任务。主要特征如下：...

ZIP

英语相似度评估数据集EnglishSimilarityAssessmentDataset-terrychanorg

2025年5月29日

英语相似度评估数据集EnglishSimilarityAssessmentDataset-terrychanorg 数据来源：互联网公开数据标签：自然语言处理，相似度评估，数据集，文本分析，机器学习，语义理解，人工智能，语言模型数据概述：该数据集包含用于评估英语文本相似度的数据，记录了不同文本对之间的相似度评分。主要特征如下：...

ZIP

越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-haphan68

2025年5月29日

越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-haphan68 数据来源：互联网公开数据标签：越南语, 文本纠错, 自然语言处理, 语言模型, 文本校对, 数据清洗, 机器翻译, 拼写纠错数据概述：该数据集包含越南语文本的错误文本及其对应的正确文本，用于越南语文本的纠错任务。主要特征如下：...

ZIP

语言模型与人类文本对比数据集LLMvsHumanTextComparisonDataset-mohamedlotfy50

2025年5月29日

语言模型与人类文本对比数据集LLMvsHumanTextComparisonDataset-mohamedlotfy50 数据来源：互联网公开数据标签：自然语言处理，文本对比，数据集，机器学习，语言模型，人类文本，人工智能，文本分析数据概述：...

ZIP

人工智能与人类文本对比数据集AIandHumanTextComparisonDataset-naveenfream

2025年5月29日

人工智能与人类文本对比数据集AIandHumanTextComparisonDataset-naveenfream 数据来源：互联网公开数据标签：自然语言处理，文本分类，ai生成，人类写作，机器学习，文本分析，语言模型，数据挖掘数据概述：...

ZIP

土耳其语与英语双语平行语料数据集Turkish-EnglishParallelCorpusDataset-eneskulak

2025年5月29日

土耳其语与英语双语平行语料数据集Turkish-EnglishParallelCorpusDataset-eneskulak 数据来源：互联网公开数据标签：自然语言处理，机器学习，数据集，翻译研究，双语对齐，语言模型，计算机科学，数据挖掘数据概述：该数据集包含来自土耳其语和英语的双语平行文本数据，记录了两种语言之间的对应关系。主要特征如下：...

ZIP

大型语言模型系统综合评估数据集LMSYSAllData-LargeLanguageModelSystemComprehensiveEvaluationDa...

2025年5月29日

大型语言模型系统综合评估数据集LMSYSAllData-LargeLanguageModelSystemComprehensiveEvaluationDataset-takukawatani 数据来源：互联网公开数据标签：人工智能，自然语言处理，数据集，机器学习，语言模型，模型评估，深度学习，技术评估数据概述：...

ZIP

越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-dunglduy

2025年5月29日

越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-dunglduy 数据来源：互联网公开数据标签：文本纠错, 越南语, 自然语言处理, 语言模型, 错误检测, 文本校正, 深度学习, 数据集数据概述：该数据集包含越南语文本，记录了原始句子及其对应的错误句子，用于越南语文本纠错任务。主要特征如下：...

ZIP

文本生成与标题创建数据集FLAN-T5-Small512-TitleDatasets-terrychanorg

2025年5月29日

文本生成与标题创建数据集FLAN-T5-Small512-TitleDatasets-terrychanorg 数据来源：互联网公开数据标签：自然语言处理，文本生成，标题创建，机器学习，深度学习，数据集，语言模型，人工智能数据概述：...

ZIP

文本拼写纠错数据集DF-SpellcheckDataset-alvaromendizabal

2025年5月29日

文本拼写纠错数据集DF-SpellcheckDataset-alvaromendizabal 数据来源：互联网公开数据标签：拼写纠错，自然语言处理，数据集，文本校对，机器学习，语言模型，文本分析，中文数据概述：该数据集包含用于拼写纠错任务的文本数据，专注于中文文本的拼写错误及其对应的正确文本。主要特征如下：...

ZIP

魔法提示生成数据集MagicPrompt-1MDataset-leonidkulyk

2025年5月29日

魔法提示生成数据集MagicPrompt-1MDataset-leonidkulyk 数据来源：互联网公开数据标签：自然语言处理，提示工程，数据集，人工智能，语言模型，机器学习，文本生成，深度学习数据概述：该数据集包含来自多个来源的文本数据，记录了用于生成魔法提示的文本样本。主要特征如下：时间跨度：数据记录的时间范围为最近一年。...

ZIP

英语写作水平评估与文本特征数据集EnglishWritingSkillAssessmentandTextFeatureDataset-hoangtranba

2025年5月29日

英语写作水平评估与文本特征数据集EnglishWritingSkillAssessmentandTextFeatureDataset-hoangtranba 数据来源：互联网公开数据标签：英语写作, 文本分析, 可读性评估, 写作质量, 自然语言处理, 机器学习, 文本特征, 语言模型数据概述：...

ZIP

科学考试因果关系语言模型奖励建模数据集-kashiwaba

2025年5月29日

科学考试因果关系语言模型奖励建模数据集-kashiwaba 数据来源：互联网公开数据标签：语言模型，因果关系，考试，奖励建模，自然语言处理，数据集，人工智能，教育数据概述：该数据集是用于训练和评估科学考试中因果关系理解的语言模型，并进行奖励建模的数据集。主要特征如下：时间跨度：数据涵盖了不同年份和版本的科学考试题目。...

ZIP

英语文本重述与改写数据集EnglishParaphraseandRewritingDataset-terrychanorg

2025年5月29日

英语文本重述与改写数据集EnglishParaphraseandRewritingDataset-terrychanorg 数据来源：互联网公开数据标签：自然语言处理，文本改写，机器学习，数据集，语言模型，文本生成，语义分析，人工智能数据概述：...

ZIP

大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis

2025年5月29日

大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，预训练，数据集，文本数据，深度学习，语言模型，人工智能数据概述：该数据集包含了用于大规模语言模型（LLM）预训练的文本数据，旨在为模型提供丰富的语言知识和上下文理解能力。主要特征如下：时间跨度：...

ZIP

金融指令数据集SujetoFinanceInstructDataset-tnglmng

2025年5月29日

金融指令数据集SujetoFinanceInstructDataset-tnglmng 数据来源：互联网公开数据标签：金融，自然语言处理，指令数据，机器学习，数据集，文本分析，深度学习，语言模型数据概述：该数据集包含来自金融领域的指令数据，记录了金融场景中的各种指令和任务描述。主要特征如下：...

ZIP

通用语料库数据集CorpusDataset-cthitrn

2025年5月29日

通用语料库数据集CorpusDataset-cthitrn 数据来源：互联网公开数据标签：语料库，自然语言处理，数据集，文本分析，机器学习，数据挖掘，语言模型，文本分类数据概述：该数据集包含来自多种来源的文本数据，记录了不同领域的语言表达。主要特征如下：时间跨度：数据记录的时间范围从20世纪到现代。...

ZIP

找到743个数据集

注册成功！