找到5,735个数据集

标签: 文本分析

过滤结果
  • 谷歌新闻原始数据集

    2025年4月14日   

    谷歌新闻原始数据集 数据来源:互联网公开数据 标签:谷歌新闻,原始数据,自然语言处理,文本分析,数据科学,新闻内容 数据概述: 本数据集包含从谷歌新闻收集的新闻文章集合,数据通过网络抓取获得,涵盖多个新闻来源的原始、未加工文本。该数据集提供了广泛的新聞内容,适用于自然语言处理项目、文本分析和其他需要原始文本数据的数据科学应用。 数据用途概述:...
    packageimg
  • Goodreads书籍样本数据清洗与整理数据集

    2025年4月14日   

    Goodreads书籍样本数据清洗与整理数据集 数据来源:互联网公开数据 标签:书籍,Goodreads,数据清洗,文本分析,图书推荐,Python,数据整理 数据概述:...
    packageimg
  • AskReddit热门评论数据集-NLP文本分析

    2025年4月14日   

    AskReddit热门评论数据集-NLP文本分析 数据来源:互联网公开数据 标签:AskReddit,评论,Reddit,文本分析,NLP,自然语言处理,情感分析,热门评论,数据分析,EDA 数据概述: 本数据集包含了过去一个月内AskReddit版块中,最热门的评论数据。...
    packageimg
  • 英文引言与标签分类数据集

    2025年4月14日   

    英文引言与标签分类数据集 数据来源:互联网公开数据 标签:引言,作者,标签分类,数据清理,文本分析,数据挖掘 数据概述:...
    packageimg
  • 数据科学领域访谈博客文章互动表现数据集

    2025年4月14日   

    数据科学领域访谈博客文章互动表现数据集 数据来源:互联网公开数据 标签:数据科学,访谈,博客,机器学习,人物访谈,文本分析,社交媒体,互动分析 数据概述: 本数据集包含了Sanyam...
    packageimg
  • 印度巴拉特生物科技公司Covaxin新冠疫苗推文数据集

    2025年4月14日   

    印度巴拉特生物科技公司Covaxin新冠疫苗推文数据集 数据来源:互联网公开数据 标签:Covaxin,新冠疫苗,疫苗,推文,社交媒体,巴拉特生物科技,疫情,公共卫生,文本分析 数据概述: 本数据集包含了巴拉特生物科技公司(Bharat Biotech)在Twitter平台上发布的超过200条关于Covaxin新冠疫苗的推文。...
    packageimg
  • 古兰经数字奇迹分析数据集1990-2023

    2025年4月14日   

    古兰经数字奇迹分析数据集1990-2023 数据来源:互联网公开数据 标签:古兰经,数字奇迹,伊斯兰教,文化研究,历史文献,文本分析,数据科学 数据概述:...
    packageimg
  • 孟加拉每日英语新闻文章数据集

    2025年4月14日   

    孟加拉每日英语新闻文章数据集 数据来源:互联网公开数据 标签:孟加拉,新闻,自然语言处理,文本分析,时间序列,媒体研究,信息提取 数据概述: 本数据集收录了孟加拉每日英语新闻文章,数据来源包括五个主要的孟加拉英语新闻门户:The Daily Star、The Financial Express、New Age bd、Dhaka Tribune 和...
    packageimg
  • 互联网公开数据集深度洞察与应用分析

    2025年4月8日   

    标题:互联网公开数据集深度洞察与应用分析 数据内容: 该数据集包含以下字段: 1. id:标识数据记录的唯一标识符,共有53043种不同的值。 2. statement:描述具体事件或信息的文本字段,共有51074种不同的值。 3. status:表示事件或信息的状态,共有7种不同的值。 数据来源: 互联网公开数据 数据用途:...
    packageimg
  • 互联网公开数据集垃圾邮件分类与文本分析

    2025年4月8日   

    标题:互联网公开数据集垃圾邮件分类与文本分析 数据内容:该数据集包含文本内容(text)和垃圾邮件分类(spam)两个字段。文本内容字段包含5695种不同的文本值,垃圾邮件分类字段包含两种不同的分类值(0和1)。 数据来源:互联网公开数据...
    packageimg
  • CommonsenseQA文本问答数据集

    2024年11月10日   

    CommonsenseQA 是常识问答任务的数据集。该数据集由 12,247 个问题组成,每个问题有 5 个选项。数据集是由 Amazon Mechanical Turk 工作人员在以下过程中生成的(括号中提供了一个示例):人群工作人员从 ConceptNet(“河流”)和三个目标概念(“瀑布”、“桥梁”、“ Valley”)都通过相同的...
    packageimg
  • XQuAD

    2024年11月10日   

    XQuAD(Cross-lingual Question Answering Dataset)是评估跨语言问答性能的基准数据集。该数据集包含来自 SQuAD v1.1(Rajpurkar 等人,2016 年)开发集的 240 个段落和 1190...
    packageimg
  • MathQA

    2024年11月10日   

    本数据集是通过使用一种新的表示语言对 AQuA-RAT 数据集进行注释来收集的。 AQuA-RAT 提供了问题、选项、理由和正确选项。
    packageimg
  • 企业-气候风险披露、词频文本分析数据(2007-2022)

    2024年10月20日   

    企业气候风险披露是指企业通过一定的方式,将气候变化对其影响、自身采取的应对措施等信息披露出来。这有助于投资者更准确地评估企业价值,发现投资机会,规避投资风险。解企业在气候风险方面的关注度和披露情况。...
    packageimg
  • NLP-THUCNews新闻文本分类数据集

    2024年11月10日   

    本数据集包含体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐,每个分类6500条,总共65000条新闻数据。
    packageimg