美国参议院议员分析数据集

美国参议院议员分析数据集 数据来源:互联网公开数据
标签:美国参议院,议员,社交媒体,政治分析,网络关系,地理信息,社会公平,话题分析

数据概述
本数据集包含四个相互关联的表格,全面涵盖了美国参议院议员的相关信息及其在社交媒体平台(如Twitter)上的活动数据。数据集结合了维基百科和Twitter API的数据,提供了议员的基本信息、社交媒体活跃度、地理信息以及网络关系等多维度数据,旨在为政治分析、社会公平研究和话题分析提供丰富的数据支持。

  1. senators.csv
  2. 描述:包含美国参议院议员的详细信息,数据来源于维基百科和Twitter API。
  3. 字段定义:
  4. name:参议院议员姓名
  5. age:年龄
  6. occupation:职业背景
  7. location:所属州或地区
  8. coordinates:州的地理坐标,用于空间网络表示
  9. screen_name:Twitter用户名
  10. followers:Twitter粉丝数量
  11. follows:Twitter关注人数
  12. id:Twitter用户ID
  13. gender:性别(新增字段,用于社会公平研究)
  14. race:种族(新增字段,用于社会公平研究)
  15. 用途:议员基本信息、社交媒体活跃度分析、地理分布分析、社会公平研究等。

  16. relationships.csv

  17. 描述:记录了所有议员之间的网络关系,包括相互关注、单向关注或不关注的情况。
  18. 字段定义:
  19. person1:议员A
  20. person2:议员B
  21. relationship:关系类型(following、not following、following only by person1或person2)
  22. 用途:议员网络关系分析、社交网络结构研究、影响力分析等。

  23. dataset_with_topics.csv

  24. 描述:包含了2008年至2023年间美国参议院议员发布的约250,000条Twitter推文,以及基于BERTopic模型的三个不同最小聚类规模的聚类结果。
  25. 字段定义:
  26. tweet_id:推文ID
  27. content:推文内容
  28. timestamp:发布时间
  29. senator_id:发布议员的ID
  30. topic_cluster_1:基于最小聚类规模的聚类结果(模型1)
  31. topic_cluster_2:基于最小聚类规模的聚类结果(模型2)
  32. topic_cluster_3:基于最小聚类规模的聚类结果(模型3)
  33. 用途:议员话题分析、政策趋势研究、社交媒体影响力分析、自然语言处理任务等。

  34. topic_info_150

  35. 描述:提供了基于最小聚类规模150的话题信息,包括主题分布和人工标注的标签,可用于多分类任务。
  36. 字段定义:
  37. topic_id:主题ID
  38. topic_keywords:主题关键词
  39. manual_label:人工标注的标签(如“政策”、“经济”等)
  40. 用途:主题分析、多分类任务、语义理解、模型公平性研究等。

数据用途概述
该数据集适用于以下场景:
1. 政治分析:研究美国参议院议员的社交媒体行为、网络关系及其对政策和选举的影响。
2. 社会公平研究:利用议员的性别和种族数据,分析政治领域的多样性和社会公平性。
3. 话题分析:通过Twitter推文和话题聚类,了解议员关注的热点问题及其变化趋势。
4. 网络分析:基于议员之间的关注关系,研究社交网络结构和影响力分布。
5. 自然语言处理:利用推文数据进行主题建模、情感分析、多分类任务等。
6. 教育培训:为学生和研究人员提供政治分析和数据科学的实际案例,帮助理解社交媒体与政治的互动关系。

数据特点
- 数据集结构清晰,各表格之间具有明确的关联性,可结合使用以进行多维度分析。
- 包含了丰富的社交媒体数据,可用于研究议员的在线活动及其与政策、选举等领域的关联。
- 新增的性别和种族字段增加了数据的社会意义,为公平性和多样性研究提供了支持。
- 推文数据量较大,且包含话题聚类结果,适合用于大规模文本分析和自然语言处理任务。

注意事项
- 数据集中的Twitter推文并非完整收录,仅代表部分样本,适用于趋势分析而非全面统计。
- 各表格字段定义明确,但数据可能存在缺失或不一致性,使用时需注意数据清洗和预处理。
- 数据的时效性截至2023年,后续需要结合新的数据源进行更新和扩展。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 25.64 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。