数据集

美国参议院议员分析数据集

美国参议院议员分析数据集数据来源：互联网公开数据
标签：美国参议院,议员,社交媒体,政治分析,网络关系,地理信息,社会公平,话题分析

数据概述
本数据集包含四个相互关联的表格，全面涵盖了美国参议院议员的相关信息及其在社交媒体平台（如Twitter）上的活动数据。数据集结合了维基百科和Twitter API的数据，提供了议员的基本信息、社交媒体活跃度、地理信息以及网络关系等多维度数据，旨在为政治分析、社会公平研究和话题分析提供丰富的数据支持。

senators.csv
描述：包含美国参议院议员的详细信息，数据来源于维基百科和Twitter API。
字段定义：
name：参议院议员姓名
age：年龄
occupation：职业背景
location：所属州或地区
coordinates：州的地理坐标，用于空间网络表示
screen_name：Twitter用户名
followers：Twitter粉丝数量
follows：Twitter关注人数
id：Twitter用户ID
gender：性别（新增字段，用于社会公平研究）
race：种族（新增字段，用于社会公平研究）
用途：议员基本信息、社交媒体活跃度分析、地理分布分析、社会公平研究等。
relationships.csv
描述：记录了所有议员之间的网络关系，包括相互关注、单向关注或不关注的情况。
字段定义：
person1：议员A
person2：议员B
relationship：关系类型（following、not following、following only by person1或person2）
用途：议员网络关系分析、社交网络结构研究、影响力分析等。
dataset_with_topics.csv
描述：包含了2008年至2023年间美国参议院议员发布的约250,000条Twitter推文，以及基于BERTopic模型的三个不同最小聚类规模的聚类结果。
字段定义：
tweet_id：推文ID
content：推文内容
timestamp：发布时间
senator_id：发布议员的ID
topic_cluster_1：基于最小聚类规模的聚类结果（模型1）
topic_cluster_2：基于最小聚类规模的聚类结果（模型2）
topic_cluster_3：基于最小聚类规模的聚类结果（模型3）
用途：议员话题分析、政策趋势研究、社交媒体影响力分析、自然语言处理任务等。
topic_info_150
描述：提供了基于最小聚类规模150的话题信息，包括主题分布和人工标注的标签，可用于多分类任务。
字段定义：
topic_id：主题ID
topic_keywords：主题关键词
manual_label：人工标注的标签（如“政策”、“经济”等）
用途：主题分析、多分类任务、语义理解、模型公平性研究等。

数据用途概述
该数据集适用于以下场景：
1. 政治分析：研究美国参议院议员的社交媒体行为、网络关系及其对政策和选举的影响。
2. 社会公平研究：利用议员的性别和种族数据，分析政治领域的多样性和社会公平性。
3. 话题分析：通过Twitter推文和话题聚类，了解议员关注的热点问题及其变化趋势。
4. 网络分析：基于议员之间的关注关系，研究社交网络结构和影响力分布。
5. 自然语言处理：利用推文数据进行主题建模、情感分析、多分类任务等。
6. 教育培训：为学生和研究人员提供政治分析和数据科学的实际案例，帮助理解社交媒体与政治的互动关系。

数据特点
- 数据集结构清晰，各表格之间具有明确的关联性，可结合使用以进行多维度分析。
- 包含了丰富的社交媒体数据，可用于研究议员的在线活动及其与政策、选举等领域的关联。
- 新增的性别和种族字段增加了数据的社会意义，为公平性和多样性研究提供了支持。
- 推文数据量较大，且包含话题聚类结果，适合用于大规模文本分析和自然语言处理任务。

注意事项
- 数据集中的Twitter推文并非完整收录，仅代表部分样本，适用于趋势分析而非全面统计。
- 各表格字段定义明确，但数据可能存在缺失或不一致性，使用时需注意数据清洗和预处理。
- 数据的时效性截至2023年，后续需要结合新的数据源进行更新和扩展。

数据与资源

美国参议院议员分析数据集.zipZIP
25.64 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	25.64 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

美国参议院议员分析数据集

数据与资源

附加信息

注册成功！