Webis_Clickbait_Based_2016年Twitter推文标注数据集

数据集概述

本数据集为Webis Clickbait Corpus 2016,包含2014年从转发量前20的新闻出版商处采样的2992条Twitter推文,由三位独立标注者手动标注是否为clickbait,其中767条被多数标注者判定为clickbait。多数投票结果可作为构建clickbait检测技术的基准真值,是该领域首个数据集。

文件详解

  • 文件名称:corpus-webis-clickbait-16.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内含2014年Twitter推文数据及人工标注结果,包含推文内容、标注者判断及多数投票的基准真值(clickbait/非clickbait)。

数据来源

Webis Clickbait Corpus 2016

适用场景

  • Clickbait检测模型训练: 利用标注数据训练和评估文本分类模型,识别社交媒体中的clickbait内容。
  • 自然语言处理研究: 分析clickbait文本的语言特征,支持相关NLP技术开发。
  • 社交媒体内容分析: 研究新闻出版商推文的clickbait分布及传播特性。
  • 基准数据集构建: 为clickbait检测技术提供标准化评估基准。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 254.53 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。