找到5,855个数据集

标签: 文本分析

过滤结果
  • 越南诗歌创作风格数据集-phamtuyet

    2025年6月1日   

    越南诗歌创作风格数据集-phamtuyet 数据来源:互联网公开数据 标签:诗歌,越南,文学,创作风格,诗词,文本分析,六字诗,七字诗,四字诗,八字诗,五字诗,双七言,六八体 数据概述: 本数据集收录了越南诗歌作品,涵盖多种诗歌创作风格。 数据集包含了不同长度和韵律的诗歌,包括六字诗、双七言、四字诗、七字诗、六八体、五字诗和八字诗等。...
    packageimg
  • 梵文关系数据集

    2025年6月1日   

    梵文关系数据集 数据来源:互联网公开数据 标签:梵文,句法分析,语料库,关系数据,NLP,语言学研究,文本分析 数据概述: 本数据集基于CoNLL-U格式文件构建,将原始的结构化文本数据转换为关系型数据格式,并存储为 Feather 文件以提高数据处理的效率和灵活性。数据集包含两个主要文件:words.feather 和...
    packageimg
  • 网络流行语词典数据集-2021年

    2025年6月1日   

    网络流行语词典数据集-2021年 数据来源:互联网公开数据 标签:流行语,网络语言,词典,文本分析,自然语言处理,数据挖掘,社会学研究 数据概述: 本数据集包含截至2021年6月1日Urban...
    packageimg
  • 法律文本知识库数据集

    2025年6月1日   

    法律文本知识库数据集 数据来源:互联网公开数据 标签:法律文本,知识库,自然语言处理,文本挖掘,法律信息,文本分析 数据概述:...
    packageimg
  • 雅虎问答综合问答数据集-2000至2010年

    2025年6月1日   

    雅虎问答综合问答数据集-2000至2010年 数据来源:互联网公开数据 标签:雅虎问答,综合问答,数据集,机器学习,分类,文本分析,自然语言处理,大型数据集 数据概述:...
    packageimg
  • 纽约时报文章内容分析精简版数据集-2007-2017

    2025年6月1日   

    纽约时报文章内容分析精简版数据集-2007-2017 数据来源:互联网公开数据 标签:纽约时报,文章,新闻,文本分析,聚类,主题建模,情感分析 数据概述:...
    packageimg
  • Coursera数据科学专项课程数据集-文本内容分析-英语语料库

    2025年6月1日   

    Coursera数据科学专项课程数据集-文本内容分析-英语语料库 数据来源:互联网公开数据 标签:自然语言处理,文本分析,机器学习,语料库,Coursera,博客,新闻,推特,英语,数据科学 数据概述: 本数据集是Coursera数据科学专项课程的Capstone项目所使用的数据集,其语料库来源于HC...
    packageimg
  • 全球RSS新闻数据集

    2025年6月1日   

    全球RSS新闻数据集 数据来源:互联网公开数据 标签:RSS,新闻,内容聚合,文本分析,数据挖掘,机器学习 数据概述:...
    packageimg
  • TensorFlow2-0问答数据集简化版-问答数据

    2025年6月1日   

    TensorFlow2-0问答数据集简化版-问答数据 数据来源:互联网公开数据 标签:TensorFlow,问答,自然语言处理,机器学习,数据集,文本分析,简化版 数据概述: 本数据集基于TensorFlow...
    packageimg
  • 维基百科-事物-主题相关页面数据分析数据集

    2025年6月1日   

    维基百科-事物-主题相关页面数据分析数据集 数据来源:互联网公开数据 标签:维基百科,事物,知识图谱,文本分析,自然语言处理,主题分类,信息检索 数据概述:...
    packageimg
  • 青空文库文本语料库

    2025年6月1日   

    青空文库文本语料库 数据来源:互联网公开数据 标签:文学作品,日本文学,语料库,文本分析,自然语言处理,文学研究 数据概述: 本数据集来源于日本著名的数字图书馆“青空文库”(Aozora...
    packageimg
  • Jigsaw比赛前序精选原始数据集

    2025年6月1日   

    Jigsaw比赛前序精选原始数据集 数据来源:互联网公开数据 标签:Jigsaw,比赛数据,文本分析,机器学习,评论数据,语言处理,数据集,社交平台评论,情感分析 数据概述:...
    packageimg
  • 预处理版虚假新闻识别数据集-ceasor6

    2025年5月31日   

    预处理版虚假新闻识别数据集-ceasor6 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强 数据概述:...
    packageimg
  • 维基百科句子拆分数据集-2023-thedevastator

    2025年5月31日   

    维基百科句子拆分数据集-2023-thedevastator 数据来源:互联网公开数据 标签:维基百科,句子拆分,NLP,自然语言处理,文本分析,数据集,机器学习 数据概述:...
    packageimg
  • 简历技能预测数据集-基于NLTK处理的技能及相关信息提取-dhruval97

    2025年5月31日   

    简历技能预测数据集-基于NLTK处理的技能及相关信息提取-dhruval97 数据来源:互联网公开数据 标签:简历,技能,预测,NLTK,自然语言处理,文本分析,机器学习,教育,就业 数据概述:...
    packageimg
  • 印度经济时报新闻文章数据集2018-2022年-anmolmittalll

    2025年5月31日   

    印度经济时报新闻文章数据集2018-2022年-anmolmittalll 数据来源:互联网公开数据 标签:新闻,印度,经济,商业,科技,政治,社会,时间序列,文本分析 数据概述: 本数据集收录了印度经济时报(ET, Economic...
    packageimg
  • 沙特阿拉伯社交媒体推文地理位置与用户行为数据集-时间跨度待定-moayadalkhozayem

    2025年5月31日   

    沙特阿拉伯社交媒体推文地理位置与用户行为数据集-时间跨度待定-moayadalkhozayem 数据来源:互联网公开数据 标签:沙特阿拉伯,推文,社交媒体,Twitter,地理位置,用户行为,文本分析,社会学研究,城市,地点 数据概述:...
    packageimg
  • 俄罗斯电报频道多分类数据集

    2025年5月31日   

    俄罗斯电报频道多分类数据集 数据来源:互联网公开数据 标签:电报频道,俄语,多分类,文本分析,社交媒体,主题分类,自然语言处理 数据概述: 本数据集包含俄罗斯语言电报频道的贴文文本及其主题标签。每个贴文可以被标注为多个主题类别,涵盖广泛的议题和内容类型。数据集旨在反映俄语社交媒体内容的多样性和复杂性,为文本分类和主题分析提供可靠的数据基础。...
    packageimg
  • 越南劳动报新闻文章数据集-2022年5月19日

    2025年5月31日   

    越南劳动报新闻文章数据集-2022年5月19日 数据来源:互联网公开数据 标签:新闻,越南,劳动报,NLP,文本分析,文章,爬取数据,自然语言处理 数据概述: 本数据集抓取自越南劳动报2022年5月19日的新闻文章,未经任何数据处理。数据集包含文章的多种属性,旨在为自然语言处理(NLP)任务提供数据支持。 数据包含以下字段: URL:文章链接。...
    packageimg
  • COVID-19西班牙语推文数据集

    2025年5月31日   

    COVID-19西班牙语推文数据集 数据来源:互联网公开数据 标签:COVID-19, 西班牙语, 推文, 时间序列, 文本分析, 情感分析, 传播趋势 数据概述:...
    packageimg