能源话题地理社交媒体文本分类数据集

数据集概述

本数据集围绕能源话题的地理社交媒体文本分类研究,包含标注的推特数据集、验证集、交互式可视化地图、地理数据文件及分析代码,支持通过自然语言处理技术分析公众对化石燃料、核能及可再生能源的立场。

文件详解

  • 标注数据集:
  • labeled_datasets.zip: ZIP格式压缩包,包含手动标注的推特样本,每条推特针对能源话题标注为"支持"、"反对"、"中立"或"无关"
  • labeled_validationsets.zip: ZIP格式压缩包,标注推特的子集,用于模型评估,包括BERTweet和GPT模型的立场检测基准测试数据
  • 可视化文件:
  • html visualisations.zip: ZIP格式压缩包,包含交互式HTML地图,展示推特相关性和立场的时空分布,以及高频词汇词云
  • 地理数据文件:
  • geo_dicts.zip: ZIP格式压缩包,包含位置标记所需的地理数据字典
  • world-administrative-boundaries.zip: ZIP格式压缩包,包含世界行政边界数据,用于地理边界分配
  • 代码文件:
  • code.ipynb: Jupyter Notebook格式文件,展示完整分析工作流程

适用场景

  • 能源政策研究: 分析公众对不同能源类型的立场分布,为政策制定提供参考
  • 社交媒体分析: 研究能源话题在社交媒体中的传播特征和公众意见演变
  • 自然语言处理应用: 用于训练和评估能源话题立场检测模型
  • 地理信息分析: 探索能源相关公众意见的地域分布规律
  • 可视化研究: 开发社交媒体数据的时空可视化工具和方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 244.26 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。