BabylonBee_Based_多模态讽刺幽默标注数据集

数据集概述

本数据集为多模态(图像+文本)讽刺研究设计,包含一万零八百八十九条人工标注样本,来源于讽刺内容网站https://babylonbee.com/。数据区分讽刺内容的幽默属性及认知机制,支持多模态讽刺识别、幽默机制分析等研究,含两个核心文件。

文件详解

  • README.docx
  • 文件格式:DOCX
  • 内容说明:数据集说明文档,包含数据背景、标注规则、使用方法等补充信息
  • BabylonBee Dataset.csv
  • 文件格式:CSV
  • 字段映射介绍:
  • Sl No.:样本编号
  • Headline:新闻标题文本
  • Humor:幽默属性标注(1=是,0=否)
  • Mechanism:幽默认知机制(GP=Garden Path、RL=Red Light、CR=Cross Road)
  • Article link:文章原链接
  • Image link:配图原链接

数据来源

公共网站https://babylonbee.com/

适用场景

  • 多模态讽刺识别研究:结合文本标题与图像链接,训练讽刺内容自动识别模型
  • 幽默认知机制分析:基于Mechanism字段研究不同认知机制在讽刺内容中的应用规律
  • 讽刺内容特征挖掘:分析幽默与非幽默讽刺内容的文本特征差异
  • 跨模态内容关联研究:探索讽刺新闻标题与配图的语义关联模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.58 MiB
最后更新 2026年2月9日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。