数据集

Webis_Clickbait_Based_2016年Twitter推文标注数据集

数据集概述

本数据集为Webis Clickbait Corpus 2016，包含2014年从转发量前20的新闻出版商处采样的2992条Twitter推文，由三位独立标注者手动标注是否为clickbait，其中767条被多数标注者判定为clickbait。多数投票结果可作为构建clickbait检测技术的基准真值，是该领域首个数据集。

文件详解

文件名称：corpus-webis-clickbait-16.zip
文件格式：ZIP
字段映射介绍：压缩包内含2014年Twitter推文数据及人工标注结果，包含推文内容、标注者判断及多数投票的基准真值（clickbait/非clickbait）。

数据来源

Webis Clickbait Corpus 2016

适用场景

Clickbait检测模型训练: 利用标注数据训练和评估文本分类模型，识别社交媒体中的clickbait内容。
自然语言处理研究: 分析clickbait文本的语言特征，支持相关NLP技术开发。
社交媒体内容分析: 研究新闻出版商推文的clickbait分布及传播特性。
基准数据集构建: 为clickbait检测技术提供标准化评估基准。

数据与资源

3251557.zipZIP
254.53 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	254.53 MiB
最后更新	2026年1月15日
创建于	2026年1月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Webis_Clickbait_Based_2016年Twitter推文标注数据集

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！