数据集概述
本数据集包含5331条主张-推文对(含269条筛选和训练对),覆盖2201条独特事实主张。数据标注包括立场(支持、中立、反对等)、主张真实性(真实、虚假等),还记录了推文互动数据、事实核查信息等,主要涉及新冠疫情、公共卫生等845个主题,适用于社交媒体事实立场分析研究。
文件详解
- 文件名称:TSD-CT.json
- 文件格式:JSON
- 字段映射介绍:包含主张-推文对的结构化数据,字段涵盖id、claim_author、claim、tweet(已脱敏为REDACTED)、screening、answered、tweet_url_title、claim_timestamp、tweet_timestamp、tweet_id、tweet_userhandle、retweet_count、reply_count、like_count、quote_count、claim_source、claim_verdict、factcheck_timestamp、claim_review_summary、claim_review、factcheck_url、claim_tags、claimbuster_score、pair_id、factcheck_author_url、factcheck_post_time、factcheck_author_info、subset、annotator_agreement等。
- 文件名称:TSD-CT.csv
- 文件格式:CSV
- 字段映射介绍:与JSON文件字段一致,以表格形式存储,包含主张-推文对的所有结构化信息,如主张文本、推文互动数据、事实核查结果、标注立场等。
适用场景
- 事实立场检测研究: 分析推文对事实主张的支持、反对等立场,构建或验证检测模型。
- 社交媒体内容可信度分析: 结合主张真实性标签,研究社交媒体信息的可信度分布及传播特征。
- 事实核查效率评估: 利用claimbuster_score等字段,分析主张被事实核查的可能性及效率。
- 公共议题讨论趋势研究: 基于主题分布(如新冠疫情、公共卫生),探究社交媒体上公共议题的讨论热点及演变。
- 虚假信息传播机制分析: 结合推文互动数据(转发、点赞等),研究虚假主张在社交媒体中的传播路径与影响。