Twitter用户数据分析集-2011-barkhaverma
数据来源:互联网公开数据
标签:Twitter,用户数据,社交媒体,分析,教育,研究,性别识别,地理位置
数据概述:
本数据集包含20,000条Twitter用户记录,每条记录包括用户名、随机推文、账户简介、图像和地理位置等信息。数据集适用于研究和分析Twitter用户特征、性别识别和地理分布等场景。数据集中的字段包括:
unit_id: 用户唯一标识符
golden: 用户是否包含在模型的黄金标准中;TRUE或FALSE
unit_state: 观察状态;finalized(供贡献者判断)或golden(黄金标准观察)
trusted_judgments: 受信任的判断数量(整数);非黄金标准情况下始终为3,黄金标准情况下可能是唯一标识符
last_judgment_at: 最后一次贡献者判断的日期和时间;黄金标准观察为空白
gender: 用户性别;male(男性)、female(女性)或brand(非人类账户)
gender_confidence: 提供的性别置信度(浮点数)
profile_yn: "no"表示该个人资料本应包含在数据集中,但在贡献者判断时不可用
profile_yn_confidence: 个人资料存在与否的置信度
created: 个人资料创建日期和时间
description: 用户的个人资料描述
fav_number: 用户收藏的推文数量
gender_gold: 如果个人资料为黄金标准,其性别为何
link_color: 个人资料中链接的颜色,以十六进制表示
name: 用户的名称
profile_yn_gold: 个人资料y/n值是否为黄金标准
profileimage: 个人资料图像链接
retweet_count: 用户转发(或被转发)的次数
sidebar_color: 个人资料侧边栏颜色,以十六进制表示
text: 用户随机推文的文本
tweet_coord: 如果用户启用了位置功能,坐标以"[纬度, 经度]"格式的字符串表示
tweet_count: 用户发布的推文数量
tweet_created: 随机推文创建时间(text列中的推文)
tweet_id: 随机推文的推文ID
tweet_location: 推文的位置;似乎没有特别标准化
user_timezone: 用户的时区
数据用途概述:
该数据集适用于多种研究与分析场景,包括社交媒体用户特征分析、性别识别、地理位置分析、社交媒体趋势研究等。研究人员可以使用此数据集进行用户行为分析,了解不同用户群体的特点;教育者可以利用该数据集教学社交媒体数据分析;政策制定者可以利用这些数据评估社交媒体平台的用户多样性。此外,该数据集也可用于教育和培训,帮助学习者理解社交媒体数据分析的基本方法和工具。