数据集

Twitter用户数据分析集-2011-barkhaverma

Twitter用户数据分析集-2011-barkhaverma 数据来源：互联网公开数据标签：Twitter,用户数据,社交媒体,分析,教育,研究,性别识别,地理位置

数据概述：本数据集包含20,000条Twitter用户记录，每条记录包括用户名、随机推文、账户简介、图像和地理位置等信息。数据集适用于研究和分析Twitter用户特征、性别识别和地理分布等场景。数据集中的字段包括：

unit_id: 用户唯一标识符

golden: 用户是否包含在模型的黄金标准中；TRUE或FALSE

unit_state: 观察状态；finalized（供贡献者判断）或golden（黄金标准观察）

trusted_judgments: 受信任的判断数量（整数）；非黄金标准情况下始终为3，黄金标准情况下可能是唯一标识符

last_judgment_at: 最后一次贡献者判断的日期和时间；黄金标准观察为空白

gender: 用户性别；male（男性）、female（女性）或brand（非人类账户）

gender_confidence: 提供的性别置信度（浮点数）

profile_yn: "no"表示该个人资料本应包含在数据集中，但在贡献者判断时不可用

profile_yn_confidence: 个人资料存在与否的置信度

created: 个人资料创建日期和时间

description: 用户的个人资料描述

fav_number: 用户收藏的推文数量

gender_gold: 如果个人资料为黄金标准，其性别为何

link_color: 个人资料中链接的颜色，以十六进制表示

name: 用户的名称

profile_yn_gold: 个人资料y/n值是否为黄金标准

profileimage: 个人资料图像链接

retweet_count: 用户转发（或被转发）的次数

sidebar_color: 个人资料侧边栏颜色，以十六进制表示

text: 用户随机推文的文本

tweet_coord: 如果用户启用了位置功能，坐标以"[纬度, 经度]"格式的字符串表示

tweet_count: 用户发布的推文数量

tweet_created: 随机推文创建时间（text列中的推文）

tweet_id: 随机推文的推文ID

tweet_location: 推文的位置；似乎没有特别标准化

user_timezone: 用户的时区

数据用途概述：该数据集适用于多种研究与分析场景，包括社交媒体用户特征分析、性别识别、地理位置分析、社交媒体趋势研究等。研究人员可以使用此数据集进行用户行为分析，了解不同用户群体的特点；教育者可以利用该数据集教学社交媒体数据分析；政策制定者可以利用这些数据评估社交媒体平台的用户多样性。此外，该数据集也可用于教育和培训，帮助学习者理解社交媒体数据分析的基本方法和工具。

数据与资源

versions_20250403115512.zipZIP
3.00 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	3.0 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Twitter用户数据分析集-2011-barkhaverma

数据与资源

附加信息

注册成功！