WSDM假新闻分类竞赛数据集2019-wsdmcup

WSDM假新闻分类竞赛数据集2019-wsdmcup 数据来源:互联网公开数据 标签:假新闻,分类,新闻标题,机器学习,数据竞赛,WSDM,字节跳动,准确性,评估指标

数据概述: 本数据集来自第十二届 ACM 国际 WSDM 大会假新闻分类竞赛任务,由字节跳动(ByteDance)赞助。竞赛旨在通过给定假新闻文章A和待分类新闻文章B的标题,对B进行分类,属于以下三类之一:agreed(B讨论与A相同的假新闻)、disagreed(B反驳A中的假新闻)、unrelated(B与A无关)。数据集包含了320,767对训练数据和80,126对测试数据,涵盖中英文两种语言。测试数据分为公开和私有两部分,分别用于计算公开准确率和最终竞赛成绩。

数据用途概述: 该数据集适用于假新闻检测、分类算法开发、自然语言处理研究等场景。研究者和开发者可以利用本数据集训练和评估假新闻分类模型,提高平台内容的真实性与可靠性。此外,数据集也为相关领域的学术研究提供了宝贵的资源。

数据字段: - id:每对新闻的唯一标识符。 - tid1:假新闻标题1的唯一标识符。 - tid2:待分类新闻标题2的唯一标识符。 - title1_zh:假新闻标题1的中文版本。 - title2_zh:待分类新闻标题2的中文版本。 - title1_en:假新闻标题1的英文版本(由中文版本机器翻译而来)。 - title2_en:待分类新闻标题2的英文版本(由中文版本机器翻译而来)。 - label:新闻对的关系标签,包括agreed、disagreed、unrelated。

评估指标: 使用加权分类准确率(Weighted Categorization Accuracy)来评估模型性能。具体公式为: [ \text{WeightedAccuracy}(y, \hat{y}, \omega) = \frac{1}{n} \sum_{i=1}^{n} \frac{\omega_i(y_i=\hat{y}_i)}{\sum \omega_i} ] 其中,y是真实标签,(\hat{y})是预测标签,(\omega_i)是第i个样本的权重。在测试集中,对每组测试样本分配权重,agreed、disagreed、unrelated三类的权重分别为(\frac{1}{15})、(\frac{1}{5})、(\frac{1}{16})。这些权重设置旨在平衡数据分布,减少多数类(unrelated)对模型性能的影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 34.48 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。