讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集

讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集 数据来源:互联网公开数据 标签:讽刺,情感分析,文本分类,自然语言处理,语料库,机器学习,社交媒体,语言学 数据概述: 本数据集是一个大规模的标注数据集,用于识别和区分讽刺性文本与非讽刺性文本。数据集包含大量句子,并对每个句子进行了“讽刺”(sarc)或“非讽刺”(notsarc)的标注。数据涵盖了不同类型的讽刺表达,并提供了详细的文本内容和标签信息。

数据集主要由以下几列构成:

  1. 语料库(Corpus):表示语料库的类型,包括GEN(一般讽刺)、HYP(夸张)和RQ(反问)。
  2. 标签(Label):表示回复话语的类别标签,可以是“sarc”(讽刺)或“notsarc”(非讽刺)。
  3. ID:帖子的唯一标识符。不同数据集中具有相同ID的帖子之间没有关联。
  4. 文本(Text):帖子的文本内容,标注了是否具有讽刺意味(即讽刺标签与该话语相关)。

数据用途概述: 该数据集主要用于训练和评估讽刺检测模型,可应用于情感分析、文本分类、自然语言处理等多个研究领域。研究人员可以使用此数据集开发算法,自动识别社交媒体帖子、新闻文章等文本中的讽刺表达。此外,该数据集也适用于语言学研究,帮助分析讽刺语言的特征和表达方式。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.02 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。