找到4,369个数据集

标签: 文本分类

过滤结果
  • 印度尼西亚短信垃圾信息数据集

    2025年4月14日   

    印度尼西亚短信垃圾信息数据集 数据来源:互联网公开数据 标签:短信,垃圾信息,分类,文本分析,机器学习,印尼语 数据概述: 本数据集来源于https://yudiwbs.wordpress.com/2018/08/05/dataset-klasifikasi-bahasa-indonesia-sms-spam-klasifikasi-teks-...
    packageimg
  • 阿拉伯语方言数据集

    2025年4月14日   

    阿拉伯语方言数据集 数据来源:互联网公开数据 标签:阿拉伯语方言,社交媒体文本,文本分类,语言分析,自然语言处理,区域语言差异 数据概述: 本数据集来源于Twitter平台,包含38,394条记录,主要分为四类阿拉伯语方言,分别为埃及方言、海湾方言、约旦方言和也门方言。各类别数据分布不均衡,为研究人员提供了多样化的数据资源。 数据用途概述:...
    packageimg
  • 数据99K数据集带上下文版本2

    2025年4月14日   

    数据99K数据集带上下文版本2 数据来源:互联网公开数据 标签:文本数据,上下文,自然语言处理,机器学习,数据标注 数据概述: 本数据集包含99,000条带上下文的文本数据,旨在为自然语言处理和机器学习任务提供丰富的训练素材。数据集中的每一条记录都包含一个句子及其上下文信息,有助于模型更好地理解和生成连贯的文本。 数据用途概述:...
    packageimg
  • 社交媒体仇恨言论识别数据集-文本内容-2017

    2025年4月14日   

    社交媒体仇恨言论识别数据集-文本内容-2017 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,文本分析,情感分析,自然语言处理,语言学,数据标注,分类,攻击性语言 数据概述: 本数据集包含近1.5万条短文本,每条文本均由多位贡献者进行标注,以识别其是否包含仇恨言论。标注结果分为三类:a) 包含仇恨言论;b) 具有攻击性,但不属于仇恨言论;c)...
    packageimg
  • 自然语言意图识别用于语音助手的IDE操作指令数据集

    2025年4月14日   

    自然语言意图识别用于语音助手的IDE操作指令数据集 数据来源:互联网公开数据 数据来源: 本数据集由开发者自建并审核(self-approved),用于自然语言处理中的意图识别任务,特别针对集成开发环境(IDE)中的常见操作命令。 数据内容:...
    packageimg
  • 推特用户情感分析数据集-社交媒体内容情感分类-多实体-训练验证

    2025年4月14日   

    推特用户情感分析数据集-社交媒体内容情感分类-多实体-训练验证 数据来源:互联网公开数据 标签:推特,情感分析,自然语言处理,社交媒体,情感分类,机器学习,文本分析,训练集,验证集 数据概述: 本数据集用于推特(Twitter)用户情感分析,旨在对推特消息中针对特定实体的情感倾向进行分类。...
    packageimg
  • SCP幽默文章数据集

    2025年4月14日   

    SCP幽默文章数据集 数据来源:互联网公开数据 标签:SCP, 幽默, 娱乐, 人工智能, 文本分类, 文本生成, 数据标注, 自然语言处理 数据概述: 本数据集收录了SCP Wiki中的“幽默文章”(Joke...
    packageimg
  • 高校学生招聘数据文本化数据集

    2025年4月14日   

    高校学生招聘数据文本化数据集 数据来源:互联网公开数据 标签:校园招聘,学生,就业,文本数据,机器学习,自然语言处理,文本分类,教育,数据挖掘 数据概述: 本数据集包含了XYZ高校学生的招聘数据,这些数据经过处理后转化为文本格式,用于训练大型语言模型(LLM)。原始数据来源于CSV文件,通过数据到文本(data-to-...
    packageimg
  • 电子游戏评论情感分析数据集

    2025年4月14日   

    电子游戏评论情感分析数据集 数据来源:互联网公开数据 标签:电子游戏,评论,情感分析,自然语言处理,NLP,文本分类,用户反馈,游戏行业 数据概述:...
    packageimg
  • 印地语-英语音译数据集

    2025年4月14日   

    印地语-英语音译数据集 数据来源:互联网公开数据 标签:印地语,英语,音译,自然语言处理,文本分类,情感分析,机器翻译,跨语言分析 数据概述: 本数据集包含印地语与英语语言对的音译文本数据,旨在促进自然语言处理任务,如文本分类、情感分析和机器翻译。数据集涵盖了不同领域和主题的各种文本样本,从短语到长句不等。数据集中的每个条目由一对印地语-...
    packageimg
  • 议论文分析与文本分类论点要素标注数据集

    2025年4月14日   

    议论文分析与文本分类论点要素标注数据集 数据来源:互联网公开数据 标签:议论文,文本分类,论点分析,论点要素,有效性评估,自然语言处理 数据概述:...
    packageimg
  • 宝莱坞视频点击诱饵分类与特征分析数据集

    2025年4月14日   

    宝莱坞视频点击诱饵分类与特征分析数据集 数据来源:互联网公开数据 标签:宝莱坞,点击诱饵,视频分析,电影,娱乐,文本分类,机器学习,数据挖掘 数据概述:...
    packageimg
  • 情感分类不平衡数据集

    2025年4月14日   

    情感分类不平衡数据集 数据来源:互联网公开数据 标签:情感分析,不平衡分类,半监督学习,文本分类,自然语言处理,机器学习 数据概述: 本数据集为解决情感分析中的类别不平衡问题而构建,涵盖三种情感类别:Negative、Positive和Neutral。初始阶段收集了620条评论数据,各类别分布分别为Negative 150条、Positive...
    packageimg
  • YouTube视频评论情感分析数据集-韩国美食频道视频评论-2024

    2025年4月14日   

    YouTube视频评论情感分析数据集-韩国美食频道视频评论-2024 数据来源:互联网公开数据 标签:YouTube,视频评论,情感分析,自然语言处理,多语言,韩国,美食,社交媒体,用户互动 数据概述:...
    packageimg
  • NLP机器人用户提问意图分类数据集

    2025年4月14日   

    NLP机器人用户提问意图分类数据集 数据来源:互联网公开数据 标签:自然语言处理,NLP,用户提问,意图识别,文本分类,机器学习,人工智能,prompt,用户交互 数据概述: 本数据集旨在对NLP机器人接收到的用户提问进行分类。数据集的核心是用户输入的文本内容(即用户提问),并为每个提问标注了相应的类别标签,以反映用户提问的意图。...
    packageimg
  • 推特仇恨言论检测数据集

    2025年4月14日   

    推特仇恨言论检测数据集 数据来源:互联网公开数据 标签:仇恨言论,推特,社交媒体分析,自然语言处理,机器学习,文本分类,情感分析 数据概述:...
    packageimg
  • 有毒评论分类数据集

    2025年4月14日   

    有毒评论分类数据集 数据来源:互联网公开数据 标签:有毒评论,自然语言处理,情感分析,文本分类,机器学习,数据标注,内容安全 数据概述:...
    packageimg
  • 印度大选期间BJP与国大党推特数据集2023

    2025年4月14日   

    印度大选期间BJP与国大党推特数据集2023 数据来源:互联网公开数据 标签:印度选举,推特数据,政治分析,情感分析,文本分类,话题建模,BJP,国大党 数据概述: 本数据集收录了2023年印度大选期间与印度两大主要政党——BJP和国大党相关联的推特内容。数据集通过Twitter...
    packageimg
  • 数据200-20新闻组文本分类数据集

    2025年4月14日   

    数据200-20新闻组文本分类数据集 数据来源:互联网公开数据 标签:文本分类,自然语言处理,NLP,新闻组,文本预处理,机器学习,监督学习 数据概述: 本数据集是一个经过预处理的文本数据集合,来源为scikit-learn提供的20...
    packageimg
  • 印度Reddit社区帖子内容分类数据集

    2025年4月14日   

    印度Reddit社区帖子内容分类数据集 数据来源:互联网公开数据 标签:Reddit,印度,社交媒体,帖子,内容分析,分类,机器学习,自然语言处理,社区,标签 数据概述: 本数据集包含了来自印度Reddit社区的帖子数据。数据通过Reddit...
    packageimg