找到5,805个数据集

标签: 文本分析

过滤结果
  • 网络评论毒性检测数据集JigsawToxicityDetectionDataset-fjklmn

    2025年4月23日   

    网络评论毒性检测数据集JigsawToxicityDetectionDataset-fjklmn 数据来源:互联网公开数据 标签:网络评论,毒性检测,数据集,自然语言处理,机器学习,文本分析,情感分析,社交媒体 数据概述:该数据集来自Jigsaw团队,记录了来自Reddit平台的网络评论及其标签,适用于毒性评论检测和自然语言处理研究。主要特征如下:...
    packageimg
  • 历史法西斯主义演说数据集-eternalstorm

    2025年4月23日   

    历史法西斯主义演说数据集-eternalstorm 数据来源:互联网公开数据 标签:法西斯主义,演说,历史,政治,NLP,文本分析,希特勒,墨索里尼,斯大林,毛泽东,公共领域 数据概述:...
    packageimg
  • 英语句子语义相似度测试数据集EN-STS-TestDataset-dangthai

    2025年4月23日   

    英语句子语义相似度测试数据集EN-STS-TestDataset-dangthai 数据来源:互联网公开数据 标签:自然语言处理,语义相似度,数据集,文本分析,机器学习,NLP,语言学,评估 数据概述: 该数据集包含用于评估英语句子语义相似度的测试数据。主要特征如下: 时间跨度: 数据记录的时间范围为数据集发布时间。 地理范围:...
    packageimg
  • 社交媒体评论数据集CommentDataDataset-jiangshanzhizhu

    2025年4月23日   

    社交媒体评论数据集CommentDataDataset-jiangshanzhizhu 数据来源:互联网公开数据 标签:社交媒体,数据集,文本分析,情感分析,自然语言处理,机器学习,数据挖掘,用户行为 数据概述: 该数据集包含来自多个社交媒体平台的用户评论数据,记录了用户在特定话题或产品上的互动和反馈。主要特征如下:...
    packageimg
  • 世界杯Twitter数据集2018年TwitterWorldCupDataset2018-arushig

    2025年4月23日   

    世界杯Twitter数据集2018年TwitterWorldCupDataset2018-arushig 数据来源:互联网公开数据 标签:社交媒体,世界杯,Twitter,数据集,文本分析,情感分析,体育赛事,机器学习 数据概述: 该数据集包含来自2018年世界杯期间Twitter平台上的相关数据,记录了用户对世界杯赛事的讨论和互动。主要特征如下:...
    packageimg
  • 自动情感分析数据集AES2FoldsDataset-syhens

    2025年4月23日   

    自动情感分析数据集AES2FoldsDataset-syhens 数据来源:互联网公开数据 标签:情感分析,数据集,自然语言处理,机器学习,文本分析,数据挖掘,人工智能,情感识别 数据概述: 该数据集包含来自自动情感分析研究的数据,记录了文本内容的情感倾向和情感强度。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg
  • 乌克兰诗歌数据集UkrainianPoemsDataset-viktoriashvets

    2025年4月23日   

    乌克兰诗歌数据集UkrainianPoemsDataset-viktoriashvets 数据来源:互联网公开数据 标签:诗歌,乌克兰,文学,文化研究,自然语言处理,文本分析,数据集,诗歌翻译 数据概述: 该数据集包含乌克兰诗歌的文本数据,旨在为研究乌克兰文学和文化提供资源。主要特征如下: 时间跨度:...
    packageimg
  • 新闻语料库词频统计数据集-2023-pduvvuri0308

    2025年4月23日   

    新闻语料库词频统计数据集-2023-pduvvuri0308 数据来源:互联网公开数据 标签:词频统计,新闻语料库,文本分析,自然语言处理,NLP,数据集,文本挖掘 数据概述:...
    packageimg
  • 越南语拼写错误数据集VietnameseMisspellDataset-khanglehoang

    2025年4月23日   

    越南语拼写错误数据集VietnameseMisspellDataset-khanglehoang 数据来源:互联网公开数据 标签:越南语,拼写错误,数据集,自然语言处理,机器学习,语言学研究,文本分析,错误检测 数据概述: 该数据集包含越南语中的拼写错误数据,记录了越南语文本中的错误拼写及其正确形式。主要特征如下:...
    packageimg
  • 垃圾短信分类数据集SpamSMSClassificationDataset-arafat1746

    2025年4月23日   

    垃圾短信分类数据集SpamSMSClassificationDataset-arafat1746 数据来源:互联网公开数据 标签:短信分类,垃圾信息,数据集,文本分析,机器学习,自然语言处理,信息过滤,通信安全 数据概述: 该数据集包含来自公开短信数据源的短信信息,记录了用户接收的短信内容及其分类标签(垃圾短信或正常短信)。主要特征如下:...
    packageimg
  • Audible有声书评论数据AudibleUncleanedDateChangedDataset-shresthajeevan

    2025年4月23日   

    Audible有声书评论数据AudibleUncleanedDateChangedDataset-shresthajeevan 数据来源:互联网公开数据 标签:有声书,评论数据,自然语言处理,文本分析,情感分析,时间序列,数据清洗,Audible 数据概述:...
    packageimg
  • 主题建模数据集TopicModelingDataset-quangvinhtrnh

    2025年4月23日   

    主题建模数据集TopicModelingDataset-quangvinhtrnh 数据来源:互联网公开数据 标签:主题建模,数据集,自然语言处理,文本分析,机器学习,数据挖掘,信息检索,文本挖掘 数据概述: 该数据集专注于主题建模任务,包含来自多个来源的文本数据,用于分析文本内容中的潜在主题。主要特征如下:...
    packageimg
  • 中文新闻语料库-2011至最新-ceshine

    2025年4月23日   

    中文新闻语料库-2011至最新-ceshine 数据来源:互联网公开数据 标签:中文新闻,语料库,NLP,文本分析,传统中文,简体中文,互联网新闻,新闻媒体 数据概述:...
    packageimg
  • 南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah

    2025年4月23日   

    南洋理工大学垃圾邮件数据集NUSSpamDatasetCleaned-johnsonubah 数据来源:互联网公开数据 标签:垃圾邮件,数据集,邮件过滤,自然语言处理,机器学习,信息安全,文本分析,学术资源 数据概述:该数据集由南洋理工大学提供,主要用于垃圾邮件的识别和过滤。主要特征如下: 时间跨度:数据记录的时间范围从2002年到2004年。...
    packageimg
  • 孟加拉语情感分析数据集-2013-faridmiah

    2025年4月23日   

    孟加拉语情感分析数据集-2013-faridmiah 数据来源:互联网公开数据 标签:孟加拉语,情感分析,社交媒体,数据科学,文本分析,机器学习,数据集 数据概述:...
    packageimg
  • 僧伽罗语新闻标题数据集-nawarathnadeshan

    2025年4月23日   

    僧伽罗语新闻标题数据集-nawarathnadeshan 数据来源:互联网公开数据 标签:新闻,文本分析,自然语言处理,僧伽罗语,文本分类,情感分析,数据集,信息检索 数据概述: 该数据集包含来自僧伽罗语新闻网站的新闻标题数据,记录了各种新闻文章的标题信息。主要特征如下: 时间跨度:数据记录的时间范围为特定时间段,具体时间范围取决于数据集的构建时间。...
    packageimg
  • 电子邮件垃圾邮件分类数据集EmailSpamClassifierDataset-prasaddablikar

    2025年4月23日   

    电子邮件垃圾邮件分类数据集EmailSpamClassifierDataset-prasaddablikar 数据来源:互联网公开数据 标签:垃圾邮件,分类,数据集,机器学习,自然语言处理,文本分析,网络安全,数据挖掘 数据概述: 该数据集包含来自互联网公开渠道的电子邮件数据,记录了电子邮件的文本内容及其分类标签(垃圾邮件或正常邮件)。主要特征如下:...
    packageimg
  • 虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98

    2025年4月23日   

    虚假新闻检测数据集FakeNewsDetectionDataset-bipulnath98 数据来源:互联网公开数据 标签:虚假新闻,数据集,自然语言处理,机器学习,文本分析,信息检索,事实核查,新闻传播 数据概述: 该数据集包含用于虚假新闻检测的文本数据,记录了真实新闻和虚假新闻的文本内容。主要特征如下: 时间跨度:...
    packageimg
  • 多标签文本分类数据集-bimleshkumar759

    2025年4月23日   

    多标签文本分类数据集-bimleshkumar759 数据来源:互联网公开数据 标签:文本分类,多标签,数据集,机器学习,自然语言处理,文本分析,深度学习,NLP 数据概述: 该数据集包含用于多标签文本分类任务的文本数据。主要特征如下: 时间跨度: 数据记录的时间范围不固定,取决于原始数据来源。 地理范围: 数据覆盖范围不固定,取决于原始数据来源。...
    packageimg
  • 新闻文章分类数据集NewsArticleCategoriesDataset-mrfaheem

    2025年4月23日   

    新闻文章分类数据集NewsArticleCategoriesDataset-mrfaheem 数据来源:互联网公开数据 标签:新闻,文章分类,数据集,文本分析,机器学习,自然语言处理,信息检索,数据挖掘 数据概述: 该数据集包含来自多个新闻来源的文章数据,记录了不同类别的新闻文章内容及其分类标签。主要特征如下:...
    packageimg