数据集 - 海数据

印度尼西亚新闻数据集2-2020年IndonesianNewsDataset2-2020-alvonsukardi

2025年5月29日

印度尼西亚新闻数据集2-2020年IndonesianNewsDataset2-2020-alvonsukardi 数据来源：互联网公开数据标签：印尼新闻，数据集，自然语言处理，文本分析，机器学习，社会研究，媒体分析，语言学数据概述：该数据集包含来自印度尼西亚各大媒体平台的新闻数据，记录了2020年全年发布的新闻文章。主要特征如下：...
- ZIP
马拉雅拉姆字符集数据集MalayalamCharacterSetDataset-raven111

2025年5月29日

马拉雅拉姆字符集数据集MalayalamCharacterSetDataset-raven111 数据来源：互联网公开数据标签：马拉雅拉姆字符，数据集，语言学，字符识别，机器学习，自然语言处理，学术资源，多语言支持数据概述：该数据集包含来自互联网公开资源的马拉雅拉姆字符集，记录了马拉雅拉姆语的各种字符及其相关信息。主要特征如下：时间跨度：...
- ZIP
英语到印地语翻译数据集English-to-HindiTranslationDataset-rkumarbengaluru

2025年5月29日

英语到印地语翻译数据集English-to-HindiTranslationDataset-rkumarbengaluru 数据来源：互联网公开数据标签：机器翻译，自然语言处理，数据集，语言转换，印地语，英语，文本分析，语言学数据概述：该数据集包含英语到印地语的平行语料，记录了成对的英语原文和对应的印地语翻译。主要特征如下：...
- ZIP
阿拉伯语方言文本分类数据集ArabicDialectTextClassificationDataset-fadyadeeb

2025年5月29日

阿拉伯语方言文本分类数据集ArabicDialectTextClassificationDataset-fadyadeeb 数据来源：互联网公开数据标签：阿拉伯语, 方言识别, 文本分类, 自然语言处理, 社交媒体, 语言学, 情感分析, 语料库数据概述：...
- ZIP
语言文字文本对比研究数据集LanguageTextComparisonCorpus-ayushmuley

2025年5月28日

语言文字文本对比研究数据集LanguageTextComparisonCorpus-ayushmuley 数据来源：互联网公开数据标签：语言学, 文本分析, 文本对比, 语料库, 罗马字母, 梵文, 文本挖掘, 机器学习数据概述：该数据集包含来自语言学研究领域的数据，记录了罗马字母转写梵文的文本。主要特征如下：...
- ZIP
翻译质量评估数据集QuACE数据集-emam2002

2025年5月28日

翻译质量评估数据集QuACE数据集-emam2002 数据来源：互联网公开数据标签：机器翻译，数据集，翻译质量评估，自然语言处理，文本分析，语言学，深度学习，文本相似度数据概述：该数据集包含来自 QuACE（Quality Assessment of Computer-Enhanced...
- ZIP
语音合成训练数据集TTSTrainingDataset-ayushs9020

2025年5月28日

语音合成训练数据集TTSTrainingDataset-ayushs9020 数据来源：互联网公开数据标签：语音合成，数据集，机器学习，自然语言处理，人工智能，语言学，语音识别，文本转语音数据概述：该数据集包含来自多个来源的语音合成训练数据，记录了文本与相应语音的对应关系，用于训练语音合成模型。主要特征如下：...
- ZIP
英语到印地语翻译数据集-amnydv17

2025年5月28日

英语到印地语翻译数据集-amnydv17 数据来源：互联网公开数据标签：机器翻译，自然语言处理，数据集，语言学，英语，印地语，文本翻译，深度学习数据概述：该数据集包含了大量的英语到印地语的翻译文本对，旨在用于机器翻译模型的训练和评估。主要特征如下：时间跨度：数据集的构建时间跨度不固定，持续更新和扩展。...
- ZIP
印地语-英语平行语料库数据集-harshityadavjnu

2025年5月28日

印地语-英语平行语料库数据集-harshityadavjnu 数据来源：互联网公开数据标签：机器翻译，自然语言处理，印地语，英语，语料库，语言学，文本分析，跨语言数据概述：该数据集包含印地语和英语的平行文本数据，旨在用于机器翻译、跨语言信息检索等任务。主要特征如下：时间跨度：数据记录的时间跨度不明确，取决于语料库的收集时间。...
- ZIP
英语文档学习与研究数据集LECREnglishDocumentsDataset-gabrielbchacon

2025年5月28日

英语文档学习与研究数据集LECREnglishDocumentsDataset-gabrielbchacon 数据来源：互联网公开数据标签：英语文档，数据集，语言学，自然语言处理，机器学习，文本分析，教育，学术研究数据概述：...
- ZIP
越南语句情感分析数据集-taitruong256

2025年5月28日

越南语句情感分析数据集-taitruong256 数据来源：互联网公开数据标签：越南语，情感分析，NLP，数据集，文本处理，机器学习，自然语言处理，语言学数据概述：该数据集包含来自越南语的句子及其对应的情感标签，用于情感分析任务。主要特征如下：时间跨度：数据记录的时间范围跨度不明确，但包含多个不同时期的越南语文本。...
- ZIP
越南语-苗语翻译平衡语料库数据集Pho-MTBalanceLabelDataset-baotanguyen

2025年5月28日

越南语-苗语翻译平衡语料库数据集Pho-MTBalanceLabelDataset-baotanguyen 数据来源：互联网公开数据标签：机器翻译，语料库，越南语，苗语，语言学，自然语言处理，双语数据，文本数据数据概述：该数据集包含越南语和苗语的双语平行文本，旨在促进越南语和苗语之间的机器翻译研究。主要特征如下：...
- ZIP
韩国留学论文翻译数据集TranslatedEssaysKODataset-umgeeyo

2025年5月28日

韩国留学论文翻译数据集TranslatedEssaysKODataset-umgeeyo 数据来源：互联网公开数据标签：论文翻译，韩国留学，数据集，机器翻译，自然语言处理，语言学，文本分析，韩语数据概述：该数据集包含韩国留学申请相关的论文翻译数据，旨在促进机器翻译和语言学习研究。主要特征如下：...
- ZIP
CommonLit2023开放式文本阅读理解数据集-lftuwujie

2025年5月28日

CommonLit2023开放式文本阅读理解数据集-lftuwujie 数据来源：互联网公开数据标签：阅读理解，文本分析，自然语言处理，教育，数据集，机器学习，文本挖掘，语言学数据概述：该数据集由CommonLit平台提供，包含了来自不同年级学生的开放式文本阅读理解数据，旨在促进对阅读理解和文本分析的研究。主要特征如下：...
- ZIP
多语言翻译语料库MultilingualTranslationCorpus-pushpaksaraf

2025年5月28日

多语言翻译语料库MultilingualTranslationCorpus-pushpaksaraf 数据来源：互联网公开数据标签：机器翻译, 语言学, 语料库, 自然语言处理, 文本翻译, 文本分析, 印度语, 语言对数据概述：...
- ZIP
罗马化泰卢固语数据集RomanizedTeluguDataset-teachingmachine

2025年5月28日

罗马化泰卢固语数据集RomanizedTeluguDataset-teachingmachine 数据来源：互联网公开数据标签：语言处理，泰卢固语，罗马化，数据集，自然语言处理，文本分析，语言学，机器翻译数据概述：该数据集包含罗马化泰卢固语文本数据，记录了泰卢固语词汇、短语或句子的罗马化转写。主要特征如下：...
- ZIP
孟加拉语段落训练数据集BangaliParaTrainDataset-nilarnabdebnath

2025年5月28日

孟加拉语段落训练数据集BangaliParaTrainDataset-nilarnabdebnath 数据来源：互联网公开数据标签：孟加拉语，自然语言处理，数据集，文本分析，机器学习，语言学，文本挖掘，语言技术数据概述：该数据集包含来自公开来源的孟加拉语段落数据，适用于自然语言处理和机器学习任务。主要特征如下：...
- ZIP
阿拉伯语方言文本分类数据集ArabicDialectTextClassificationDataset-yousifadel

2025年5月28日

阿拉伯语方言文本分类数据集ArabicDialectTextClassificationDataset-yousifadel 数据来源：互联网公开数据标签：阿拉伯语, 方言识别, 文本分类, 自然语言处理, 语言学, 机器学习, 情感分析, 数据集数据概述：...
- ZIP
乌尔都语作者身份识别数据集-drkhurramshahzad

2025年5月28日

乌尔都语作者身份识别数据集-drkhurramshahzad 数据来源：互联网公开数据标签：自然语言处理，文本分析，乌尔都语，作者识别，机器学习，文本分类，语料库，语言学数据概述：该数据集包含来自不同作者的乌尔都语文本，用于进行作者身份识别研究。主要特征如下：时间跨度：数据没有明确的时间跨度，主要关注文本内容。...
- ZIP
越南多文档数据集VietnameseMulti-DocumentDataset-nguyenvuthanhtung

2025年5月28日

越南多文档数据集VietnameseMulti-DocumentDataset-nguyenvuthanhtung 数据来源：互联网公开数据标签：越南语，数据集，多文档，自然语言处理，文本分析，语言学，机器学习，信息检索数据概述：该数据集包含来自越南的多文档数据，记录了越南语文本的详细信息。主要特征如下：...
- ZIP

«
1
...
3
4
5
6
7
...
34
»

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？