数据集 - 海数据

泰卢固语罗马化文本数据集TeluguRomanizedTextDataset-teachingmachine

2025年5月29日

泰卢固语罗马化文本数据集TeluguRomanizedTextDataset-teachingmachine 数据来源：互联网公开数据标签：泰卢固语，罗马化，文本数据，自然语言处理，数据集，语言学，机器翻译，文本分析数据概述：该数据集包含泰卢固语文本的罗马化转写数据，记录了泰卢固语文本与其对应的罗马字母转写版本。主要特征如下：...

ZIP

Twitter情感分析数据集Sentiment140CleanedDataset-fadhilmch

2025年5月29日

Twitter情感分析数据集Sentiment140CleanedDataset-fadhilmch 数据来源：互联网公开数据标签：情感分析，社交媒体，文本数据，自然语言处理，机器学习，情感分类，Twitter，数据集数据概述：该数据集包含来自Twitter的推文数据，主要用于情感分析任务，即判断推文的情感倾向是积极还是消极。主要特征如下：...

ZIP

游戏翻译语料库-中文-越南语对照数据集GameTranslationCorpus-Chinese-Vietnamese-trninh

2025年5月29日

游戏翻译语料库-中文-越南语对照数据集GameTranslationCorpus-Chinese-Vietnamese-trninh 数据来源：互联网公开数据标签：机器翻译, 游戏翻译, 语言对, 中文, 越南语, 文本数据, 语料库, 多语言数据概述：...

ZIP

文字限制采样数据集SampledDataWordLimit190Dataset-amrkhaledsaleh

2025年5月29日

文字限制采样数据集SampledDataWordLimit190Dataset-amrkhaledsaleh 数据来源：互联网公开数据标签：文本分析，数据集，自然语言处理，机器学习，语言学，文本挖掘，文本分类，文本预处理数据概述：该数据集包含了经过采样的文本数据，每段文本的字数限制在190字内，适用于自然语言处理和文本分析任务。主要特征如下：...

ZIP

大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis

2025年5月29日

大规模语言模型预训练数据集LLM-pretrainedDataset-afthesis 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，预训练，数据集，文本数据，深度学习，语言模型，人工智能数据概述：该数据集包含了用于大规模语言模型（LLM）预训练的文本数据，旨在为模型提供丰富的语言知识和上下文理解能力。主要特征如下：时间跨度：...

ZIP

分子活性预测SMILES数据集MolecularActivityPredictionSMILESDataset-clarkziyuanwang

2025年5月29日

分子活性预测SMILES数据集MolecularActivityPredictionSMILESDataset-clarkziyuanwang 数据来源：互联网公开数据标签：SMILES, 分子活性, 机器学习, 药物研发, 化学信息学, 文本数据, 模型训练, 数据集数据概述：...

ZIP

科勒里奇倡议科研论文文本与标签数据集ColeridgeInitiativeUnitedTextsandLabelsDataset-anaidashaginian

2025年5月29日

科勒里奇倡议科研论文文本与标签数据集ColeridgeInitiativeUnitedTextsandLabelsDataset-anaidashaginian 数据来源：互联网公开数据标签：科研论文，文本数据，自然语言处理，数据标注，学术研究，机器学习，文本分析，信息提取...

ZIP

阿拉伯语推特文本数据集ArabicTwitterTextData-asalhi

2025年5月29日

阿拉伯语推特文本数据集ArabicTwitterTextData-asalhi 数据来源：互联网公开数据标签：阿拉伯语, 社交媒体, 文本数据, 推特, 自然语言处理, 情感分析, 文本挖掘, 语料库数据概述：该数据集包含来自Twitter平台的阿拉伯语推文文本数据，记录了用户发布的推文内容及其对应的URL链接。主要特征如下：...

ZIP

维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen

2025年5月29日

维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源：互联网公开数据标签：自然语言处理，文本数据，数据集，文本清洗，机器学习，语言模型，信息检索，文本分析数据概述：该数据集是维基文本清洗数据集的第二部分，包含了从维基百科中提取和清洗过的文本数据。主要特征如下：...

ZIP

商品标题文本数据集ProductTitleTextData-composto

2025年5月29日

商品标题文本数据集ProductTitleTextData-composto 数据来源：互联网公开数据标签：商品标题, 文本数据, 商品识别, 文本分析, 巴西市场, 零售商品, 自然语言处理, 命名实体识别数据概述：该数据集包含来自巴西市场的商品标题文本，记录了各种商品的名称和对应的商品ID。主要特征如下：...

ZIP

社交媒体评论文本情感分析数据集SocialMediaCommentSentimentAnalysis-iluxave

2025年5月29日

社交媒体评论文本情感分析数据集SocialMediaCommentSentimentAnalysis-iluxave 数据来源：互联网公开数据标签：情感分析, 文本数据, 自然语言处理, 评论数据, 情感分类, 机器学习, 文本挖掘, 数据预处理数据概述：该数据集包含来自社交媒体平台的评论文本数据，主要用于情感分析任务。主要特征如下：...

ZIP

文本情感分析数据集TextSentimentAnalysisDataset-haroldlee02

2025年5月29日

文本情感分析数据集TextSentimentAnalysisDataset-haroldlee02 数据来源：互联网公开数据标签：文本情感分析, 情感分类, 文本数据, 机器学习, 自然语言处理, 数据标注, 情感倾向, 文本语料数据概述：该数据集包含来自不同来源的文本数据，记录了用于情感分析任务的文本及其对应的情感标签。主要特征如下：...

ZIP

情感分析文本数据集SentimentAnalysisTextDataset-vinsshaji12

2025年5月29日

情感分析文本数据集SentimentAnalysisTextDataset-vinsshaji12 数据来源：互联网公开数据标签：情感分析, 文本分类, 情感倾向, 文本数据, 情感标注, 自然语言处理, 机器学习, 文本语料数据概述：该数据集包含用于情感分析任务的文本数据，记录了不同文本片段的情感倾向。主要特征如下：...

ZIP

新冠疫情社交媒体情感分析数据集COVID-19SocialMediaSentimentAnalysis-mlcovidresearch

2025年5月29日

新冠疫情社交媒体情感分析数据集COVID-19SocialMediaSentimentAnalysis-mlcovidresearch 数据来源：互联网公开数据标签：新冠疫情, 情感分析, 社交媒体, 文本数据, 情感分类, 自然语言处理, 情绪识别, 舆情分析数据概述：...

ZIP

多语言词对翻译数据集MultilingualWordPairTranslationDataset-jaswanth431

2025年5月29日

多语言词对翻译数据集MultilingualWordPairTranslationDataset-jaswanth431 数据来源：互联网公开数据标签：机器翻译, 词对翻译, 多语言, 文本数据, 印度语言, 文本分析, 自然语言处理, 语言学数据概述：该数据集包含来自不同印度语言的词对翻译数据，旨在促进多语言翻译模型的研究与开发。主要特征如下：...

ZIP

维基百科文章文本数据集WikipediaArticleTextData-tolgaerdogmus

2025年5月29日

维基百科文章文本数据集WikipediaArticleTextData-tolgaerdogmus 数据来源：互联网公开数据标签：维基百科, 文本数据, 自然语言处理, 文本分析, 信息检索, 语料库, 文本挖掘, 数据集数据概述：该数据集包含来自维基百科的文章文本数据，记录了维基百科上收录的各种主题的文章内容。主要特征如下：...

ZIP

社交媒体事件分析数据集SocialMediaEventAnalysis-swapnikavajrapu

2025年5月29日

社交媒体事件分析数据集SocialMediaEventAnalysis-swapnikavajrapu 数据来源：互联网公开数据标签：社交媒体, 事件分析, 数据挖掘, 舆情分析, 文本数据, 传播分析, 时间序列, 数据可视化数据概述：该数据集包含来自社交媒体的数据，记录了特定事件的传播信息。主要特征如下：...

ZIP

Jigsaw评论文本翻译数据集JigsawTrainTranslatedDataset-ma7555

2025年5月29日

Jigsaw评论文本翻译数据集JigsawTrainTranslatedDataset-ma7555 数据来源：互联网公开数据标签：文本数据，翻译，评论，自然语言处理，机器学习，多语言，文本分析，情感分析数据概述：该数据集来自 Jigsaw 竞赛，主要包含了经过翻译的评论文本，旨在用于多语言环境下的有害评论检测任务。主要特征如下：...

ZIP

印度语文件数据集HindiLanguageFilesDataset-sherinkk

2025年5月29日

印度语文件数据集HindiLanguageFilesDataset-sherinkk 数据来源：互联网公开数据标签：印度语，文本数据，数据集，自然语言处理，机器学习，语言研究，文本分析，多语言数据概述：该数据集包含来自印度语（Hindi）环境下的各类文本文件，记录了印度语在不同场景下的使用情况。主要特征如下：...

ZIP

LSTM模型预训练数据文件数据集-cristianozhuo

2025年5月29日

LSTM模型预训练数据文件数据集-cristianozhuo 数据来源：互联网公开数据标签：深度学习，自然语言处理，LSTM，预训练，文本数据，数据集，序列建模，机器学习数据概述：该数据集包含用于LSTM（长短期记忆网络）模型预训练的文本数据，旨在为深度学习模型提供基础的语言知识。主要特征如下：...

ZIP

找到997个数据集

注册成功！