Webis标题党破解语料库2022

数据集概述

该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。

文件详解

  • 文件名称: webis-clickbait-22.zip
  • 文件格式: ZIP压缩包
  • 内部文件(按预设划分):
  • training.jsonl: 三千二百条训练用标题党帖子数据
  • validation.jsonl: 八百条验证用标题党帖子数据
  • test.jsonl: 一千条测试用标题党帖子数据(用于SemEval-2023任务)
  • 数据字段说明(基于内容描述):
  • 包含标题党帖子原文
  • 包含手动清理后的链接文档内容
  • 包含对应破解内容及类型标签(短语型/段落型/非连续多文本型)

适用场景

  • 自然语言处理研究: 用于标题党破解任务的模型训练与评估
  • 文本生成任务: 探索短文本摘要与信息提炼的算法优化
  • 社交媒体分析: 研究标题党内容特征及其破解策略
  • 语义理解评估: 验证模型对诱导性文本的深层语义解析能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.79 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。