数据集概述
本数据集针对在线虚假信息传播的新型链接分类任务构建,聚焦于事实核查文章中出现的链接,将其按文本语境分为虚假信息出现、支持证据、其他三类。包含训练集、测试集、说明文档及代码文件,可用于虚假信息传播相关的链接分类研究,共5个文件。
文件详解
- 数据文件
- 文件名称:GS_train.json、GS_test.json
- 文件格式:JSON
- 字段映射介绍:包含标注者生成的声明文本、URL对及标签(虚假信息出现、支持证据、其他),采用70/30的训练-测试拆分
- 文档文件
- 文件名称:README.md、Datasheet.md
- 文件格式:MD
- 字段映射介绍:README.md说明数据集基本情况及使用方法;Datasheet.md详述数据集的构建逻辑、结构与创建流程
- 代码文件
- 文件名称:context_retriever.py
- 文件格式:PY
- 字段映射介绍:用于构建链接的文本语境的辅助代码文件
适用场景
- 虚假信息传播研究: 分析事实核查文章中链接的分类与虚假信息传播的关联
- 链接分类模型训练: 基于标注数据训练在线内容中的链接分类算法
- 自然语言处理任务: 开展与文本语境理解、链接语义分类相关的NLP研究
- 虚假信息检测应用: 为虚假信息自动识别系统提供链接分类的训练数据支撑