找到3,950个数据集

标签: 文本分类

过滤结果
  • 未对齐的标记化数据集CenteredTokenized-2Dataset-enarior

    2025年4月24日   

    未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本处理,机器学习,语言模型,数据标注,文本分类,深度学习 数据概述: 该数据集包含来自未对齐标记化处理过程的文本数据,记录了经过特定标记化方法处理的文本样本。主要特征如下:...
    packageimg
  • Quora重复问题数据集QuoraDuplicateQuestionsDataset-ekanshu

    2025年4月24日   

    Quora重复问题数据集QuoraDuplicateQuestionsDataset-ekanshu 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,问答系统,信息检索,深度学习,语义分析 数据概述: 该数据集包含来自Quora平台的问答数据,记录了平台上用户提出的问题及其标签。主要特征如下:...
    packageimg
  • 推特产品情感分析数据集-blessondensil294

    2025年4月24日   

    推特产品情感分析数据集-blessondensil294 数据来源:互联网公开数据 标签:情感分析,推特,产品评价,自然语言处理,文本分类,机器学习,社交媒体,舆情分析 数据概述: 该数据集包含了来自推特平台的产品相关推文,用于情感分析任务。主要特征如下: 时间跨度:数据记录的时间范围为一段时间内的推文。...
    packageimg
  • 在线评论立场识别数据集OLIDCleanedDataset-barunikarthika

    2025年4月24日   

    在线评论立场识别数据集OLIDCleanedDataset-barunikarthika 数据来源:互联网公开数据 标签:自然语言处理,文本分类,立场识别,数据集,机器学习,社交媒体,情感分析,情感计算 数据概述: 该数据集包含来自社交媒体平台的在线评论数据,记录了用户对不同话题的立场和态度。主要特征如下:...
    packageimg
  • 达里جة语句子数据集DarijaSentencesDataset-atif10

    2025年4月24日   

    达里جة语句子数据集DarijaSentencesDataset-atif10 数据来源:互联网公开数据 标签:自然语言处理,语言数据集,文本分类,情感分析,机器学习,人工智能,语言研究,非洲语言 数据概述: 该数据集包含来自摩洛哥达里جة语的真实句子数据,记录了该语言的日常用语和表达。主要特征如下:...
    packageimg
  • 突尼斯短信垃圾邮件数据集TunisianSMSSpamandHamCollection-mahdibenabdallah

    2025年4月24日   

    突尼斯短信垃圾邮件数据集TunisianSMSSpamandHamCollection-mahdibenabdallah 数据来源:互联网公开数据 标签:短信,垃圾邮件,文本分类,自然语言处理,机器学习,阿拉伯语,数据集,文本分析 数据概述: 该数据集包含了来自突尼斯的短信数据,用于垃圾短信(Spam)和正常短信(Ham)的分类研究。主要特征如下:...
    packageimg
  • 法律公开测试数据集PublicTestLegalDataset-minhnguyendichnhat

    2025年4月24日   

    法律公开测试数据集PublicTestLegalDataset-minhnguyendichnhat 数据来源:互联网公开数据 标签:法律,数据集,文本分析,自然语言处理,法律文本,机器学习,司法,文本分类 数据概述: 该数据集包含来自公开法律文本的数据,旨在用于法律领域的测试和评估。主要特征如下: 时间跨度:...
    packageimg
  • Jigsaw恶意评论分类挑战赛评论数据集-koheishima

    2025年4月24日   

    Jigsaw恶意评论分类挑战赛评论数据集-koheishima 数据来源:互联网公开数据 标签:恶意评论,文本分类,自然语言处理,情感分析,社交媒体,评论数据,毒性检测,在线社区,机器学习 数据概述: 本数据集包含了来自Jigsaw...
    packageimg
  • 中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai

    2025年4月24日   

    中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai 数据来源:互联网公开数据 标签:文本分类,自然语言处理,中文,标签,训练集,RoBERTa,机器学习 数据概述: 本数据集包含三个子集,均与中文文本分类任务相关,主要基于RoBERTa模型进行标签生成与处理。 AM-1 (使用180_filtered_rb标记的训练集):...
    packageimg
  • BERT模型基线实验数据集BERTBaselineExperimentDataset-kenkrige

    2025年4月24日   

    BERT模型基线实验数据集BERTBaselineExperimentDataset-kenkrige 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,情感分析,机器翻译,文本生成,深度学习,BERT模型 数据概述: 该数据集包含了用于训练和评估BERT模型的基础文本数据,用于构建BERT模型的基线实验。主要特征如下:...
    packageimg
  • 西班牙国会发言标点检测数据集

    2025年4月24日   

    西班牙国会发言标点检测数据集 数据来源:互联网公开数据 标签:西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类 数据概述: 本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录,按发言人分段整理。每句话被拆分为单个单词,并根据以下标准进行分类: 1....
    packageimg
  • 点击诱饵内容识别数据集ClickbaitDataset-arkyabagchi

    2025年4月24日   

    点击诱饵内容识别数据集ClickbaitDataset-arkyabagchi 数据来源:互联网公开数据 标签:内容识别,数据集,自然语言处理,文本分类,机器学习,信息传播,媒体分析,广告技术 数据概述: 该数据集包含来自互联网公开渠道的文本内容数据,记录了用于识别和分类“点击诱饵”内容的样本。主要特征如下:...
    packageimg
  • 仇恨言论识别与分类数据集FinalCleanedHateSpeechBalancedDataDataset-nirmalgaud

    2025年4月24日   

    仇恨言论识别与分类数据集FinalCleanedHateSpeechBalancedDataDataset-nirmalgaud 数据来源:互联网公开数据 标签:自然语言处理,仇恨言论,数据集,文本分类,机器学习,社会媒体,文本分析,情感分析 数据概述:...
    packageimg
  • 阿拉伯语仇恨言论检测数据集ArabicHateSpeechDetectionDataset-malkim

    2025年4月24日   

    阿拉伯语仇恨言论检测数据集ArabicHateSpeechDetectionDataset-malkim 数据来源:互联网公开数据 标签:仇恨言论,语言分析,数据集,机器学习,文本分类,社会媒体,自然语言处理,情感分析 数据概述: 该数据集包含来自阿拉伯语社交媒体平台的文本数据,记录了用户发布的内容及其是否被标记为仇恨言论。主要特征如下:...
    packageimg
  • 虚假新闻检测数据集FakeNewsDetectionDataset-masroorshah768

    2025年4月24日   

    虚假新闻检测数据集FakeNewsDetectionDataset-masroorshah768 数据来源:互联网公开数据 标签:虚假新闻,新闻检测,数据集,自然语言处理,机器学习,文本分类,信息安全,数据挖掘 数据概述: 该数据集包含来自多个新闻源的数据,记录了真实新闻与虚假新闻的特征信息。主要特征如下:...
    packageimg
  • 网络钓鱼与正常邮件分类数据集PhishingandHamEmailsDataset-mohamedouledhamed

    2025年4月24日   

    网络钓鱼与正常邮件分类数据集PhishingandHamEmailsDataset-mohamedouledhamed 数据来源:互联网公开数据 标签:网络安全,电子邮件,数据集,机器学习,自然语言处理,文本分类,垃圾邮件检测,数据挖掘 数据概述: 该数据集包含来自网络钓鱼和正常邮件的文本数据,记录了两种类型电子邮件的内容特征。主要特征如下:...
    packageimg
  • Yelp餐饮点评情感分析数据集训练集-测试集

    2025年4月24日   

    Yelp餐饮点评情感分析数据集训练集-测试集 数据来源:互联网公开数据 标签:情感分析,文本分类,Yelp,点评,NLP,自然语言处理,机器学习,用户评论,情感极性,文本数据 数据概述:...
    packageimg
  • 有毒评论检测训练数据集ToxicCommentDetectionTrainingDataset-tunguz

    2025年4月23日   

    有毒评论检测训练数据集ToxicCommentDetectionTrainingDataset-tunguz 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,情感分析,垃圾内容检测,网络安全,数据挖掘 数据概述:...
    packageimg
  • 自助文章问题解决与建议数据集-greatcodes

    2025年4月23日   

    自助文章问题解决与建议数据集-greatcodes 数据来源:互联网公开数据 标签:自助,健康,移民,个人护理,问题解决,建议,文本分类,信息检索,内容分析,文本摘要 数据概述:...
    packageimg
  • TapTap平台手游玩家评价情感分析数据集-griffith000

    2025年4月23日   

    TapTap平台手游玩家评价情感分析数据集-griffith000 数据来源:互联网公开数据 标签:手游,游戏评论,情感分析,自然语言处理,TapTap,用户反馈,文本分类,中国,移动游戏 数据概述: 本数据集收录了TapTap平台上手机游戏的玩家评论数据,旨在用于情感分析研究。...
    packageimg