美国参议院议员分析数据集
数据来源:互联网公开数据
标签:美国参议院,议员,社交媒体,政治分析,网络关系,地理信息,社会公平,话题分析
数据概述
本数据集包含四个相互关联的表格,全面涵盖了美国参议院议员的相关信息及其在社交媒体平台(如Twitter)上的活动数据。数据集结合了维基百科和Twitter API的数据,提供了议员的基本信息、社交媒体活跃度、地理信息以及网络关系等多维度数据,旨在为政治分析、社会公平研究和话题分析提供丰富的数据支持。
- senators.csv
- 描述:包含美国参议院议员的详细信息,数据来源于维基百科和Twitter API。
- 字段定义:
- name:参议院议员姓名
- age:年龄
- occupation:职业背景
- location:所属州或地区
- coordinates:州的地理坐标,用于空间网络表示
- screen_name:Twitter用户名
- followers:Twitter粉丝数量
- follows:Twitter关注人数
- id:Twitter用户ID
- gender:性别(新增字段,用于社会公平研究)
- race:种族(新增字段,用于社会公平研究)
-
用途:议员基本信息、社交媒体活跃度分析、地理分布分析、社会公平研究等。
-
relationships.csv
- 描述:记录了所有议员之间的网络关系,包括相互关注、单向关注或不关注的情况。
- 字段定义:
- person1:议员A
- person2:议员B
- relationship:关系类型(following、not following、following only by person1或person2)
-
用途:议员网络关系分析、社交网络结构研究、影响力分析等。
-
dataset_with_topics.csv
- 描述:包含了2008年至2023年间美国参议院议员发布的约250,000条Twitter推文,以及基于BERTopic模型的三个不同最小聚类规模的聚类结果。
- 字段定义:
- tweet_id:推文ID
- content:推文内容
- timestamp:发布时间
- senator_id:发布议员的ID
- topic_cluster_1:基于最小聚类规模的聚类结果(模型1)
- topic_cluster_2:基于最小聚类规模的聚类结果(模型2)
- topic_cluster_3:基于最小聚类规模的聚类结果(模型3)
-
用途:议员话题分析、政策趋势研究、社交媒体影响力分析、自然语言处理任务等。
-
topic_info_150
- 描述:提供了基于最小聚类规模150的话题信息,包括主题分布和人工标注的标签,可用于多分类任务。
- 字段定义:
- topic_id:主题ID
- topic_keywords:主题关键词
- manual_label:人工标注的标签(如“政策”、“经济”等)
- 用途:主题分析、多分类任务、语义理解、模型公平性研究等。
数据用途概述
该数据集适用于以下场景:
1. 政治分析:研究美国参议院议员的社交媒体行为、网络关系及其对政策和选举的影响。
2. 社会公平研究:利用议员的性别和种族数据,分析政治领域的多样性和社会公平性。
3. 话题分析:通过Twitter推文和话题聚类,了解议员关注的热点问题及其变化趋势。
4. 网络分析:基于议员之间的关注关系,研究社交网络结构和影响力分布。
5. 自然语言处理:利用推文数据进行主题建模、情感分析、多分类任务等。
6. 教育培训:为学生和研究人员提供政治分析和数据科学的实际案例,帮助理解社交媒体与政治的互动关系。
数据特点
- 数据集结构清晰,各表格之间具有明确的关联性,可结合使用以进行多维度分析。
- 包含了丰富的社交媒体数据,可用于研究议员的在线活动及其与政策、选举等领域的关联。
- 新增的性别和种族字段增加了数据的社会意义,为公平性和多样性研究提供了支持。
- 推文数据量较大,且包含话题聚类结果,适合用于大规模文本分析和自然语言处理任务。
注意事项
- 数据集中的Twitter推文并非完整收录,仅代表部分样本,适用于趋势分析而非全面统计。
- 各表格字段定义明确,但数据可能存在缺失或不一致性,使用时需注意数据清洗和预处理。
- 数据的时效性截至2023年,后续需要结合新的数据源进行更新和扩展。