Twitter用户数据分析集-2011-barkhaverma

Twitter用户数据分析集-2011-barkhaverma 数据来源:互联网公开数据 标签:Twitter,用户数据,社交媒体,分析,教育,研究,性别识别,地理位置

数据概述: 本数据集包含20,000条Twitter用户记录,每条记录包括用户名、随机推文、账户简介、图像和地理位置等信息。数据集适用于研究和分析Twitter用户特征、性别识别和地理分布等场景。数据集中的字段包括:

unit_id: 用户唯一标识符

golden: 用户是否包含在模型的黄金标准中;TRUE或FALSE

unit_state: 观察状态;finalized(供贡献者判断)或golden(黄金标准观察)

trusted_judgments: 受信任的判断数量(整数);非黄金标准情况下始终为3,黄金标准情况下可能是唯一标识符

last_judgment_at: 最后一次贡献者判断的日期和时间;黄金标准观察为空白

gender: 用户性别;male(男性)、female(女性)或brand(非人类账户)

gender_confidence: 提供的性别置信度(浮点数)

profile_yn: "no"表示该个人资料本应包含在数据集中,但在贡献者判断时不可用

profile_yn_confidence: 个人资料存在与否的置信度

created: 个人资料创建日期和时间

description: 用户的个人资料描述

fav_number: 用户收藏的推文数量

gender_gold: 如果个人资料为黄金标准,其性别为何

link_color: 个人资料中链接的颜色,以十六进制表示

name: 用户的名称

profile_yn_gold: 个人资料y/n值是否为黄金标准

profileimage: 个人资料图像链接

retweet_count: 用户转发(或被转发)的次数

sidebar_color: 个人资料侧边栏颜色,以十六进制表示

text: 用户随机推文的文本

tweet_coord: 如果用户启用了位置功能,坐标以"[纬度, 经度]"格式的字符串表示

tweet_count: 用户发布的推文数量

tweet_created: 随机推文创建时间(text列中的推文)

tweet_id: 随机推文的推文ID

tweet_location: 推文的位置;似乎没有特别标准化

user_timezone: 用户的时区

数据用途概述: 该数据集适用于多种研究与分析场景,包括社交媒体用户特征分析、性别识别、地理位置分析、社交媒体趋势研究等。研究人员可以使用此数据集进行用户行为分析,了解不同用户群体的特点;教育者可以利用该数据集教学社交媒体数据分析;政策制定者可以利用这些数据评估社交媒体平台的用户多样性。此外,该数据集也可用于教育和培训,帮助学习者理解社交媒体数据分析的基本方法和工具。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.0 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。