找到5,803个数据集

标签: 文本分析

过滤结果
  • 斯瓦希里语新闻分类数据集

    2025年4月16日   

    斯瓦希里语新闻分类数据集 数据来源:互联网公开数据 标签:斯瓦希里语,新闻分类,自然语言处理,NLP,非洲语言,语言保护,文本分析,多语言数据 数据概述:...
    packageimg
  • Reddit平台Amber-Heard相关帖子数据集-文本分析-2021年6月至2022年9月

    2025年4月16日   

    Reddit平台Amber-Heard相关帖子数据集-文本分析-2021年6月至2022年9月 数据来源:互联网公开数据 标签:Reddit,AmberHeard,帖子,社交媒体分析,文本分析,舆情分析,数据挖掘 数据概述: 本数据集包含了Reddit平台上关于Amber Heard的帖子数据,涵盖了2021年6月至2022年9月的时间范围。...
    packageimg
  • TED演讲文本数据集-演讲内容与结构分析-2024年9月12日

    2025年4月16日   

    TED演讲文本数据集-演讲内容与结构分析-2024年9月12日 数据来源:互联网公开数据 标签:TED演讲,文本,转录,演讲稿,自然语言处理,文本分析,主题分割,内容分析 数据概述:...
    packageimg
  • Jigsaw多语言恶意评论翻译测试数据集-多语言-英语

    2025年4月16日   

    Jigsaw多语言恶意评论翻译测试数据集-多语言-英语 数据来源:互联网公开数据 标签:恶意评论,文本分类,多语言,翻译,Jigsaw,自然语言处理,机器学习,文本分析 数据概述:...
    packageimg
  • 自杀数据清理版数据集

    2025年4月16日   

    自杀数据清理版数据集 数据来源:互联网公开数据 标签:自杀,心理健康,文本分析,情感分析,数据清理,TF-IDF,机器学习 数据概述: 本数据集基于“suicide-watch”数据集进行清理和预处理,旨在提供更高质量的数据用于进一步分析和建模。清理过程包括去除表情符号、停止词,并采用TF-...
    packageimg
  • 比特币价格预测多模态数据集-推特文本-价格与交易量-2019-2023

    2025年4月15日   

    比特币价格预测多模态数据集-推特文本-价格与交易量-2019-2023 数据来源:互联网公开数据 标签:比特币,价格预测,推特,社交媒体,文本分析,金融,时间序列,机器学习 数据概述: 本数据集是论文“PreBit -...
    packageimg
  • Reddit问答互动与热度分析百万问答数据集

    2025年4月15日   

    Reddit问答互动与热度分析百万问答数据集 数据来源:互联网公开数据 标签:Reddit,问答,社交媒体,文本分析,数据挖掘,用户行为,内容分析,热度,评分 数据概述:...
    packageimg
  • 印度马拉地语新闻标题清理数据集

    2025年4月15日   

    印度马拉地语新闻标题清理数据集 数据来源:互联网公开数据 标签:马拉地语,新闻标题,文本清理,数据处理,自然语言处理,SKlearn,分词,文本分析 数据概述: 本数据集包含约12000条经过清理的马拉地语新闻文章标题,源自iNLTK原始数据集。清理步骤包括罗马化、规范化、去除重复项及使用Indic-NLP-...
    packageimg
  • IMDB电影用户影评情感分析数据集

    2025年4月15日   

    IMDB电影用户影评情感分析数据集 数据来源:互联网公开数据 标签:电影,影评,IMDB,用户评论,情感分析,评分,流派,剧透,文本分析 数据概述:...
    packageimg
  • 自然语言处理文本纠错数据集

    2025年4月15日   

    自然语言处理文本纠错数据集 数据来源:互联网公开数据 标签:自然语言处理,文本纠错,语法错误检测,机器学习,数据分类,语言技术,文本分析 数据概述:...
    packageimg
  • 南方公园系列数据集

    2025年4月15日   

    南方公园系列数据集 数据来源:互联网公开数据 标签:南方公园,电视剧,文本分析,情感分析,流行度,脏话分析,角色分析 数据概述: 本数据集包含《南方公园》这部讽刺美剧的两部分关键数据。第一部分是该剧前21季(共287集)中每集所有台词的记录,第二部分是从IMDB获取的每集平均评分数据。这些数据为深入分析电视剧的内容、情感走向及角色特点提供了丰富的基础。...
    packageimg
  • 迷宫逃生电影评论情感分析数据集

    2025年4月15日   

    迷宫逃生电影评论情感分析数据集 数据来源:互联网公开数据 标签:电影评论,情感分析,文本分析,正面评价,负面评价 数据概述: 本数据集收录了500条关于电影《迷宫逃生》的在线评论,涵盖正面和负面两种情感倾向。数据来源于网页抓取,适用于文本分析和情感分类研究。 数据用途概述:...
    packageimg
  • 尼采著作文本数据集1885-1905

    2025年4月15日   

    尼采著作文本数据集1885-1905 数据来源:互联网公开数据 标签:尼采,哲学,文本分析,自然语言处理,词频分析,推荐系统,人文研究 数据概述:...
    packageimg
  • TED-Ed视频互动与内容分析数据集-YouTubeAPI采集

    2025年4月15日   

    TED-Ed视频互动与内容分析数据集-YouTubeAPI采集 数据来源:互联网公开数据 标签:TED-Ed, YouTube, 视频分析, 评论数据, 观众互动, 元数据, 教育视频, 文本分析 数据概述: 本数据集通过Google YouTube Data API (v3.0)采集,包含了TED-...
    packageimg
  • 印度象棋策略书籍文本与游戏数据集1963-2021

    2025年4月15日   

    印度象棋策略书籍文本与游戏数据集1963-2021 数据来源:互联网公开数据 标签:国际象棋,策略书籍,NLP,文本分析,游戏分析,主题建模,文档聚类,文本生成 数据概述: 本数据集收录了国际象棋大师Edward...
    packageimg
  • 意大利启蒙运动问答数据集

    2025年4月15日   

    意大利启蒙运动问答数据集 数据来源:互联网公开数据 标签:意大利启蒙运动,哲学,文化,问答,文本分析,语言研究,历史文献 数据概述: 本数据集包含意大利启蒙运动时期作者的文本片段。这些文本用于微调Gemma 2模型,以保留意大利启蒙运动的思想和语言特色。意大利启蒙运动起源于十八世纪下半叶,是一场涉及认识论、伦理学和政治学等领域讨论的文化和哲学运动。...
    packageimg
  • YouTube视频内容分类文本分析数据集

    2025年4月15日   

    YouTube视频内容分类文本分析数据集 数据来源:互联网公开数据 标签:视频分类,文本分析,机器学习,自然语言处理,多类别分类,数据标注,Youtube API 数据概述: 本数据集基于YouTube...
    packageimg
  • 印度奢侈品服装数据集1963-2021

    2025年4月15日   

    印度奢侈品服装数据集1963-2021 数据来源:互联网公开数据 标签:奢侈品服装,产品分类,产品描述,时尚行业,文本分析,多分类模型,市场研究 数据概述:...
    packageimg
  • 动漫数据集适用于NLP项目

    2025年4月15日   

    动漫数据集适用于NLP项目 数据来源:互联网公开数据 标签:动漫,推荐系统,NLP,文本分析,数据挖掘,自然语言处理,娱乐分析 数据概述: 本数据集主要用于构建著名的动漫推荐系统——Anime Odyssey。数据集涵盖了丰富的动漫信息,包括但不限于动漫名称、简介、类型、评分、评论等内容,为自然语言处理和文本分析提供了宝贵的数据资源。 数据用途概述:...
    packageimg
  • 电子邮件垃圾邮件检测特征数据集

    2025年4月15日   

    电子邮件垃圾邮件检测特征数据集 数据来源:互联网公开数据 标签:垃圾邮件检测,电子邮件特征,机器学习,分类模型,关键词识别,文本分析 数据概述: 本数据集包含了用于电子邮件垃圾邮件检测的各种特征数据,涵盖了邮件的多个维度信息,如主题长度、单词数量、关键词出现情况等。这些特征为构建垃圾邮件分类模型提供了必要的数据基础。 数据用途概述:...
    packageimg