数据集概述
本数据集为哥斯达黎加新闻源假新闻检测Beta版数据集,包含预处理后的西班牙语和英语新闻文本,以及通过LIWC词典分析的结果。数据用于评估数据挖掘模型对哥斯达黎加新闻网站生成的真实或潜在假新闻的分类能力,以验证模型可靠性并为后续研究扩展奠定基础。
文件详解
- 数据源文件(datasource_clasificado_webhose.xls)
- 文件格式:XLS
- 字段映射介绍:包含哥斯达黎加新闻源的分类新闻数据,具体字段未详细说明。
- 英文LIWC2015结果文件(LIWC2015_ResultsENG.xlsx)
- 文件格式:XLSX
- 字段映射介绍:使用LIWC2015英语词典分析英文新闻文本的结果,包含更多Summary Language Variables等变量。
- 西班牙语LIWC2007结果文件(LIWC2007_ResultsSPA.xlsx)
- 文件格式:XLSX
- 字段映射介绍:使用LIWC2007西班牙语词典分析西班牙语新闻文本的结果。
- 变量描述文件(DescripcionVariables.xlsx)
- 文件格式:XLSX
- 字段映射介绍:提供数据集中所有变量的详细描述。
适用场景
- 假新闻检测模型评估: 用于测试数据挖掘模型对哥斯达黎加新闻源真假新闻的分类效果。
- 新闻文本分析研究: 分析西班牙语和英语新闻文本的语言特征差异。
- 多语言文本挖掘应用: 探索不同语言版本新闻数据在假新闻检测中的表现。
- 自然语言处理模型训练: 作为训练数据提升模型对特定区域新闻的假新闻识别能力。