-
机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh
机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh 数据来源:互联网公开数据 标签:机器学习,问答系统,印地语,数据集,自然语言处理,文本预处理,多语言处理,语言模型 数据概述: 该数据集包含来自机器学习与问答系统(MLQA)项目的印地语数据,记录了经过预处理的印地语文本内容。主要特征如下:... -
词语类比测试数据集-julianschelb
词语类比测试数据集-julianschelb 数据来源:互联网公开数据 标签:自然语言处理,词向量,类比,语义,语言模型,测试集,词汇,认知 数据概述:... -
BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen
BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen 数据来源:互联网公开数据 标签:新闻分析,自然语言处理,数据集,文本分类,机器学习,信息提取,语言模型,数据挖掘 数据概述: 该数据集包含来自BBC新闻的文本数据,记录了新闻文章的标题,内容,分类标签等信息。主要特征如下:... -
文本重写训练与测试数据集ParaphraserTrainingandTestSet-pravinkumardurairaj
文本重写训练与测试数据集ParaphraserTrainingandTestSet-pravinkumardurairaj 数据来源:互联网公开数据 标签:自然语言处理,文本重写,数据集,机器学习,文本生成,语言模型,深度学习,数据科学 数据概述: 该数据集包含用于训练和测试文本重写模型的平行文本数据,记录了原始文本及其对应的重写版本。主要特征如下:... -
泰米尔语科学知识精调数据集-mohammedsaajid
泰米尔语科学知识精调数据集-mohammedsaajid 数据来源:互联网公开数据 标签:泰米尔语,科学,知识,精调,机器学习,物理,化学,生物,天文,语言模型 数据概述: 本数据集专为在泰米尔语环境下微调大型语言模型而设计,重点关注科学知识。数据集涵盖广泛的科学主题,包括物理、化学、生物学、天文学和通识科学,确保了对基础概念的全面覆盖。 关键特征:... -
英法翻译数据集English-FrenchTranslationDataset-endofnight17j03
英法翻译数据集English-FrenchTranslationDataset-endofnight17j03 数据来源:互联网公开数据 标签:机器翻译,翻译,自然语言处理,数据集,语言模型,文本数据,双语语料库,NLP 数据概述: 该数据集包含英法双语翻译文本,记录了英语句子及其对应的法语翻译。主要特征如下:... -
未对齐的标记化数据集CenteredTokenized-2Dataset-enarior
未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本处理,机器学习,语言模型,数据标注,文本分类,深度学习 数据概述: 该数据集包含来自未对齐标记化处理过程的文本数据,记录了经过特定标记化方法处理的文本样本。主要特征如下:... -
谷歌问题回答挑战赛数据集GoogleQuestQ-AChallengeDataset-kashnitsky
谷歌问题回答挑战赛数据集GoogleQuestQ-AChallengeDataset-kashnitsky 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,机器学习,文本分析,知识图谱,人工智能,语言模型 数据概述:... -
西班牙国会发言标点检测数据集
西班牙国会发言标点检测数据集 数据来源:互联网公开数据 标签:西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类 数据概述: 本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录,按发言人分段整理。每句话被拆分为单个单词,并根据以下标准进行分类: 1.... -
CrowS-Pairs社会偏见评估挑战数据集-thedevastator
CrowS-Pairs社会偏见评估挑战数据集-thedevastator 数据来源:互联网公开数据 标签:社会偏见,MLM,语言模型,机器学习,数据集,教育,研究,公平性 数据概述: CrowS-... -
组合故事文本数据集CombinedStoriesTextDataset-ahmadrezacuet
组合故事文本数据集CombinedStoriesTextDataset-ahmadrezacuet 数据来源:互联网公开数据 标签:故事文本,数据集,自然语言处理,文本分析,机器学习,文本生成,数据分析,语言模型 数据概述: 该数据集包含来自多个来源的组合故事文本数据,记录了各类故事文本的内容和结构。主要特征如下:... -
问答数据集QuestionAnsweringDataset-namphmquang
问答数据集QuestionAnsweringDataset-namphmquang 数据来源:互联网公开数据 标签:问答系统,自然语言处理,数据集,机器学习,语言模型,知识库,信息检索,人工智能 数据概述:该数据集包含来自多个来源的问答对数据,记录了用户提出的问题及其对应的答案。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。... -
维基百科句子数据集WikiSentencesV2-ranjitp20
维基百科句子数据集WikiSentencesV2-ranjitp20 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,语言模型,文本语料库,信息检索,机器学习,文本摘要 数据概述: 该数据集包含了来自维基百科的句子,旨在为自然语言处理任务提供大规模文本语料库。主要特征如下:... -
英语到孟加拉语翻译数据集EnglishtoBengaliTranslationDataset-ritankardas
英语到孟加拉语翻译数据集EnglishtoBengaliTranslationDataset-ritankardas 数据来源:互联网公开数据 标签:语言翻译,数据集,自然语言处理,机器学习,语言模型,文本分析,多语言,人工智能 数据概述: 该数据集包含英语到孟加拉语的平行语料,记录了双语翻译的对应句子。主要特征如下:... -
自然语言处理数据集NLP数据集-mkmanoj353
自然语言处理数据集NLP数据集-mkmanoj353 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,人工智能,语言模型,文本分类,情感分析 数据概述:该数据集包含来自多个来源的自然语言处理数据,记录了大量文本数据以支持各种NLP任务。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。... -
文本分析工具数据集TextAnalysisToolDataset-jaynadkarni
文本分析工具数据集TextAnalysisToolDataset-jaynadkarni 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,机器学习,情感分析,文本挖掘,语言模型,数据科学 数据概述: 该数据集包含来自多个公开来源的文本数据,记录了各类文本内容的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年至今。... -
孟加拉语维基百科文本数据集
孟加拉语维基百科文本数据集 数据来源:互联网公开数据 标签:孟加拉语,维基百科,文本数据,自然语言处理,机器学习,语言模型,文本挖掘 数据概述:... -
大规模语言模型上下文理解数据集LargeLanguageModelContextUnderstandingDataset-yingpengchen
大规模语言模型上下文理解数据集LargeLanguageModelContextUnderstandingDataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,数据集,语言模型,上下文理解,文本分析,机器学习,人工智能,语义分析 数据概述:... -
常识评估数据集CommonSenseEvaluationData-hassam361
常识评估数据集CommonSenseEvaluationData-hassam361 数据来源:互联网公开数据 标签:常识推理,自然语言处理,数据集,文本理解,人工智能,语义分析,知识图谱,语言模型 数据概述: 该数据集包含用于评估常识推理能力的数据,旨在测试模型在理解和应用常识方面的表现。主要特征如下:... -
自然语言处理示例数据集NLPSampleData-fishercht
自然语言处理示例数据集NLPSampleData-fishercht 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,文本挖掘,语言模型,情感分析,语料库 数据概述: 该数据集包含多种用于自然语言处理任务的示例数据,旨在帮助研究人员和开发者进行算法测试和模型训练。主要特征如下:...