-
文本生成对话语料数据集TextGenerationDialogueCorpus-terrychanorg
文本生成对话语料数据集TextGenerationDialogueCorpus-terrychanorg 数据来源:互联网公开数据 标签:文本生成, 对话系统, 语料库, 自然语言处理, 文本摘要, 机器翻译, 语言模型, 数据集 数据概述: 该数据集包含多个CSV文件,记录了用于文本生成和对话系统训练的语料。主要特征如下:... -
大型语言模型70k语境数据集LLM70kContextDataset-sugupoko
大型语言模型70k语境数据集LLM70kContextDataset-sugupoko 数据来源:互联网公开数据 标签:语言模型,自然语言处理,数据集,机器学习,文本生成,深度学习,人工智能,自然语言理解 数据概述: 该数据集包含来自大型语言模型训练的数据,记录了包含语境的文本样本。主要特征如下: 时间跨度:数据记录的时间范围从近期到当前。... -
英文文档语料库数据集-ashwanillkagechaad
英文文档语料库数据集-ashwanillkagechaad 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,英文,文档,语料库,语言模型,文本挖掘 数据概述:该数据集包含大量的英文文档,涵盖了多种主题和来源。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于文档的发布时间。 地理范围:数据来源广泛,覆盖全球范围内的英文文档。... -
多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung
多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,新闻,机器学习,信息检索,深度学习,语言模型 数据概述: 该数据集包含来自新闻网站的多个新闻报道及其对应的摘要,旨在用于文本摘要任务。主要特征如下:... -
英语相似度评估数据集EnglishSimilarityAssessmentDataset-terrychanorg
英语相似度评估数据集EnglishSimilarityAssessmentDataset-terrychanorg 数据来源:互联网公开数据 标签:自然语言处理,相似度评估,数据集,文本分析,机器学习,语义理解,人工智能,语言模型 数据概述: 该数据集包含用于评估英语文本相似度的数据,记录了不同文本对之间的相似度评分。主要特征如下:... -
越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-haphan68
越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-haphan68 数据来源:互联网公开数据 标签:越南语, 文本纠错, 自然语言处理, 语言模型, 文本校对, 数据清洗, 机器翻译, 拼写纠错 数据概述: 该数据集包含越南语文本的错误文本及其对应的正确文本,用于越南语文本的纠错任务。主要特征如下:... -
语言模型与人类文本对比数据集LLMvsHumanTextComparisonDataset-mohamedlotfy50
语言模型与人类文本对比数据集LLMvsHumanTextComparisonDataset-mohamedlotfy50 数据来源:互联网公开数据 标签:自然语言处理,文本对比,数据集,机器学习,语言模型,人类文本,人工智能,文本分析 数据概述:... -
人工智能与人类文本对比数据集AIandHumanTextComparisonDataset-naveenfream
人工智能与人类文本对比数据集AIandHumanTextComparisonDataset-naveenfream 数据来源:互联网公开数据 标签:自然语言处理,文本分类,ai生成,人类写作,机器学习,文本分析,语言模型,数据挖掘 数据概述:... -
土耳其语与英语双语平行语料数据集Turkish-EnglishParallelCorpusDataset-eneskulak
土耳其语与英语双语平行语料数据集Turkish-EnglishParallelCorpusDataset-eneskulak 数据来源:互联网公开数据 标签:自然语言处理,机器学习,数据集,翻译研究,双语对齐,语言模型,计算机科学,数据挖掘 数据概述: 该数据集包含来自土耳其语和英语的双语平行文本数据,记录了两种语言之间的对应关系。主要特征如下:... -
大型语言模型系统综合评估数据集LMSYSAllData-LargeLanguageModelSystemComprehensiveEvaluationDa...
大型语言模型系统综合评估数据集LMSYSAllData-LargeLanguageModelSystemComprehensiveEvaluationDataset-takukawatani 数据来源:互联网公开数据 标签:人工智能,自然语言处理,数据集,机器学习,语言模型,模型评估,深度学习,技术评估 数据概述:... -
越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-dunglduy
越南语文本纠错数据集VietnameseTextErrorCorrectionDataset-dunglduy 数据来源:互联网公开数据 标签:文本纠错, 越南语, 自然语言处理, 语言模型, 错误检测, 文本校正, 深度学习, 数据集 数据概述: 该数据集包含越南语文本,记录了原始句子及其对应的错误句子,用于越南语文本纠错任务。主要特征如下:... -
文本生成与标题创建数据集FLAN-T5-Small512-TitleDatasets-terrychanorg
文本生成与标题创建数据集FLAN-T5-Small512-TitleDatasets-terrychanorg 数据来源:互联网公开数据 标签:自然语言处理,文本生成,标题创建,机器学习,深度学习,数据集,语言模型,人工智能 数据概述:... -
文本拼写纠错数据集DF-SpellcheckDataset-alvaromendizabal
文本拼写纠错数据集DF-SpellcheckDataset-alvaromendizabal 数据来源:互联网公开数据 标签:拼写纠错,自然语言处理,数据集,文本校对,机器学习,语言模型,文本分析,中文 数据概述: 该数据集包含用于拼写纠错任务的文本数据,专注于中文文本的拼写错误及其对应的正确文本。主要特征如下:... -
魔法提示生成数据集MagicPrompt-1MDataset-leonidkulyk
魔法提示生成数据集MagicPrompt-1MDataset-leonidkulyk 数据来源:互联网公开数据 标签:自然语言处理,提示工程,数据集,人工智能,语言模型,机器学习,文本生成,深度学习 数据概述: 该数据集包含来自多个来源的文本数据,记录了用于生成魔法提示的文本样本。主要特征如下: 时间跨度:数据记录的时间范围为最近一年。... -
英语写作水平评估与文本特征数据集EnglishWritingSkillAssessmentandTextFeatureDataset-hoangtranba
英语写作水平评估与文本特征数据集EnglishWritingSkillAssessmentandTextFeatureDataset-hoangtranba 数据来源:互联网公开数据 标签:英语写作, 文本分析, 可读性评估, 写作质量, 自然语言处理, 机器学习, 文本特征, 语言模型 数据概述:... -
科学考试因果关系语言模型奖励建模数据集-kashiwaba
科学考试因果关系语言模型奖励建模数据集-kashiwaba 数据来源:互联网公开数据 标签:语言模型,因果关系,考试,奖励建模,自然语言处理,数据集,人工智能,教育 数据概述: 该数据集是用于训练和评估科学考试中因果关系理解的语言模型,并进行奖励建模的数据集。主要特征如下: 时间跨度:数据涵盖了不同年份和版本的科学考试题目。... -
英语文本重述与改写数据集EnglishParaphraseandRewritingDataset-terrychanorg
英语文本重述与改写数据集EnglishParaphraseandRewritingDataset-terrychanorg 数据来源:互联网公开数据 标签:自然语言处理,文本改写,机器学习,数据集,语言模型,文本生成,语义分析,人工智能 数据概述:... -
大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis
大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis 数据来源:互联网公开数据 标签:自然语言处理,大规模语言模型,预训练,数据集,文本数据,深度学习,语言模型,人工智能 数据概述: 该数据集包含了用于大规模语言模型(LLM)预训练的文本数据,旨在为模型提供丰富的语言知识和上下文理解能力。主要特征如下: 时间跨度:... -
金融指令数据集SujetoFinanceInstructDataset-tnglmng
金融指令数据集SujetoFinanceInstructDataset-tnglmng 数据来源:互联网公开数据 标签:金融,自然语言处理,指令数据,机器学习,数据集,文本分析,深度学习,语言模型 数据概述: 该数据集包含来自金融领域的指令数据,记录了金融场景中的各种指令和任务描述。主要特征如下:... -
通用语料库数据集CorpusDataset-cthitrn
通用语料库数据集CorpusDataset-cthitrn 数据来源:互联网公开数据 标签:语料库,自然语言处理,数据集,文本分析,机器学习,数据挖掘,语言模型,文本分类 数据概述: 该数据集包含来自多种来源的文本数据,记录了不同领域的语言表达。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。...