数据集 - 海数据

机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh

2025年4月24日

机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh 数据来源：互联网公开数据标签：机器学习，问答系统，印地语，数据集，自然语言处理，文本预处理，多语言处理，语言模型数据概述：该数据集包含来自机器学习与问答系统（MLQA）项目的印地语数据，记录了经过预处理的印地语文本内容。主要特征如下：...

ZIP

词语类比测试数据集-julianschelb

2025年4月24日

词语类比测试数据集-julianschelb 数据来源：互联网公开数据标签：自然语言处理,词向量,类比,语义,语言模型,测试集,词汇,认知数据概述：...

ZIP

BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen

2025年4月24日

BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen 数据来源：互联网公开数据标签：新闻分析，自然语言处理，数据集，文本分类，机器学习，信息提取，语言模型，数据挖掘数据概述：该数据集包含来自BBC新闻的文本数据，记录了新闻文章的标题，内容，分类标签等信息。主要特征如下：...

ZIP

文本重写训练与测试数据集ParaphraserTrainingandTestSet-pravinkumardurairaj

2025年4月24日

文本重写训练与测试数据集ParaphraserTrainingandTestSet-pravinkumardurairaj 数据来源：互联网公开数据标签：自然语言处理，文本重写，数据集，机器学习，文本生成，语言模型，深度学习，数据科学数据概述：该数据集包含用于训练和测试文本重写模型的平行文本数据，记录了原始文本及其对应的重写版本。主要特征如下：...

ZIP

泰米尔语科学知识精调数据集-mohammedsaajid

2025年4月24日

泰米尔语科学知识精调数据集-mohammedsaajid 数据来源：互联网公开数据标签：泰米尔语,科学,知识,精调,机器学习,物理,化学,生物,天文,语言模型数据概述：本数据集专为在泰米尔语环境下微调大型语言模型而设计，重点关注科学知识。数据集涵盖广泛的科学主题，包括物理、化学、生物学、天文学和通识科学，确保了对基础概念的全面覆盖。关键特征：...

ZIP

英法翻译数据集English-FrenchTranslationDataset-endofnight17j03

2025年4月24日

英法翻译数据集English-FrenchTranslationDataset-endofnight17j03 数据来源：互联网公开数据标签：机器翻译，翻译，自然语言处理，数据集，语言模型，文本数据，双语语料库，NLP 数据概述：该数据集包含英法双语翻译文本，记录了英语句子及其对应的法语翻译。主要特征如下：...

ZIP

未对齐的标记化数据集CenteredTokenized-2Dataset-enarior

2025年4月24日

未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源：互联网公开数据标签：自然语言处理，数据集，文本处理，机器学习，语言模型，数据标注，文本分类，深度学习数据概述：该数据集包含来自未对齐标记化处理过程的文本数据，记录了经过特定标记化方法处理的文本样本。主要特征如下：...

ZIP

谷歌问题回答挑战赛数据集GoogleQuestQ-AChallengeDataset-kashnitsky

2025年4月24日

谷歌问题回答挑战赛数据集GoogleQuestQ-AChallengeDataset-kashnitsky 数据来源：互联网公开数据标签：自然语言处理，问答系统，数据集，机器学习，文本分析，知识图谱，人工智能，语言模型数据概述：...

ZIP

西班牙国会发言标点检测数据集

2025年4月24日

西班牙国会发言标点检测数据集数据来源：互联网公开数据标签：西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类数据概述：本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录，按发言人分段整理。每句话被拆分为单个单词，并根据以下标准进行分类： 1....

ZIP

CrowS-Pairs社会偏见评估挑战数据集-thedevastator

2025年4月24日

CrowS-Pairs社会偏见评估挑战数据集-thedevastator 数据来源：互联网公开数据标签：社会偏见,MLM,语言模型,机器学习,数据集,教育,研究,公平性数据概述： CrowS-...

ZIP

组合故事文本数据集CombinedStoriesTextDataset-ahmadrezacuet

2025年4月24日

组合故事文本数据集CombinedStoriesTextDataset-ahmadrezacuet 数据来源：互联网公开数据标签：故事文本，数据集，自然语言处理，文本分析，机器学习，文本生成，数据分析，语言模型数据概述：该数据集包含来自多个来源的组合故事文本数据，记录了各类故事文本的内容和结构。主要特征如下：...

ZIP

问答数据集QuestionAnsweringDataset-namphmquang

2025年4月24日

问答数据集QuestionAnsweringDataset-namphmquang 数据来源：互联网公开数据标签：问答系统，自然语言处理，数据集，机器学习，语言模型，知识库，信息检索，人工智能数据概述：该数据集包含来自多个来源的问答对数据，记录了用户提出的问题及其对应的答案。主要特征如下：时间跨度：数据记录的时间范围从2010年到2020年。...

ZIP

维基百科句子数据集WikiSentencesV2-ranjitp20

2025年4月24日

维基百科句子数据集WikiSentencesV2-ranjitp20 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，语言模型，文本语料库，信息检索，机器学习，文本摘要数据概述：该数据集包含了来自维基百科的句子，旨在为自然语言处理任务提供大规模文本语料库。主要特征如下：...

ZIP

英语到孟加拉语翻译数据集EnglishtoBengaliTranslationDataset-ritankardas

2025年4月23日

英语到孟加拉语翻译数据集EnglishtoBengaliTranslationDataset-ritankardas 数据来源：互联网公开数据标签：语言翻译，数据集，自然语言处理，机器学习，语言模型，文本分析，多语言，人工智能数据概述：该数据集包含英语到孟加拉语的平行语料，记录了双语翻译的对应句子。主要特征如下：...

ZIP

自然语言处理数据集NLP数据集-mkmanoj353

2025年4月23日

自然语言处理数据集NLP数据集-mkmanoj353 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分析，机器学习，人工智能，语言模型，文本分类，情感分析数据概述：该数据集包含来自多个来源的自然语言处理数据，记录了大量文本数据以支持各种NLP任务。主要特征如下：时间跨度：数据记录的时间范围从2010年到2023年。...

ZIP

文本分析工具数据集TextAnalysisToolDataset-jaynadkarni

2025年4月23日

文本分析工具数据集TextAnalysisToolDataset-jaynadkarni 数据来源：互联网公开数据标签：文本分析，自然语言处理，数据集，机器学习，情感分析，文本挖掘，语言模型，数据科学数据概述：该数据集包含来自多个公开来源的文本数据，记录了各类文本内容的详细信息。主要特征如下：时间跨度：数据记录的时间范围从2010年至今。...

ZIP

孟加拉语维基百科文本数据集

2025年4月23日

孟加拉语维基百科文本数据集数据来源：互联网公开数据标签：孟加拉语,维基百科,文本数据,自然语言处理,机器学习,语言模型,文本挖掘数据概述：...

ZIP

大规模语言模型上下文理解数据集LargeLanguageModelContextUnderstandingDataset-yingpengchen

2025年4月23日

大规模语言模型上下文理解数据集LargeLanguageModelContextUnderstandingDataset-yingpengchen 数据来源：互联网公开数据标签：自然语言处理，数据集，语言模型，上下文理解，文本分析，机器学习，人工智能，语义分析数据概述：...

ZIP

常识评估数据集CommonSenseEvaluationData-hassam361

2025年4月23日

常识评估数据集CommonSenseEvaluationData-hassam361 数据来源：互联网公开数据标签：常识推理，自然语言处理，数据集，文本理解，人工智能，语义分析，知识图谱，语言模型数据概述：该数据集包含用于评估常识推理能力的数据，旨在测试模型在理解和应用常识方面的表现。主要特征如下：...

ZIP

自然语言处理示例数据集NLPSampleData-fishercht

2025年4月23日

自然语言处理示例数据集NLPSampleData-fishercht 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分析，机器学习，文本挖掘，语言模型，情感分析，语料库数据概述：该数据集包含多种用于自然语言处理任务的示例数据，旨在帮助研究人员和开发者进行算法测试和模型训练。主要特征如下：...

ZIP

找到743个数据集

注册成功！