Instagram用户真实性评估数据集-社交媒体用户行为分析-2019年9月-krpurba
数据来源:互联网公开数据
标签:Instagram, 用户行为, 社交媒体, 虚假用户, 真实用户, 机器学习, 数据集, 社交网络分析, 用户画像, 欺诈检测
数据概述:
本数据集旨在研究和分析Instagram用户的真实性,包含真实用户和虚假用户(包括购买粉丝、垃圾信息发布者等)。数据通过网络爬虫从第三方Instagram网站收集,采集了用户的元数据以及最多12条最新的媒体帖子。数据收集时间为2019年9月1日至2019年9月20日。
真实用户样本来源于Instagram上24个私立大学(8个印尼、8个马来西亚、8个澳大利亚)官方账号的关注者。为了减少用户数量,采用了基于来源大学的比例随机抽样。所有私密账号均被移除,总共移除了31,335个用户,剩余32,460个公开用户。虚假用户由人工标注。
数据集包含以下字段:
- pos (发布数量):用户总共发布的帖子数量。
- flg (关注数量):用户关注的账号数量。
- flr (粉丝数量):用户的粉丝数量。
- bl (简介长度):用户个人简介的字符长度。
- pic (头像可用性):如果用户没有头像,则值为0;如果有头像,则值为1。
- lin (链接可用性):如果用户没有外部链接,则值为0;如果有外部链接,则值为1。
- cl (平均标题长度):媒体帖子标题的平均字符长度。
- cz (标题零值比例):标题字符长度接近于零(<=3)的帖子所占的比例 (0.0 到 1.0)。
- ni (非图像比例):非图像媒体(视频、轮播)所占的比例 (0.0 到 1.0)。
- erl (互动率-点赞):点赞互动率,计算方式为(点赞数) / (媒体数) / (粉丝数)。
- erc (互动率-评论):评论互动率,计算方式与点赞互动率类似。
- lt (位置标签比例):被标记位置的帖子所占的比例 (0.0 到 1.0)。
- hc (平均话题标签数量):帖子中使用的平均话题标签数量。
- pr (推广关键词):话题标签中推广关键词(如 {regrann, contest, repost, giveaway, mention, share, give away, quiz})的平均使用率。
- fo (粉丝关键词):话题标签中粉丝获取关键词(如 {follow, like, folback, follback, f4f})的平均使用率。
- cs (余弦相似度):用户所有帖子两两之间的平均余弦相似度。
- pi (帖子间隔):帖子之间的平均时间间隔(以小时为单位)。
用户类别:
- 2类用户标签:r (真实/真实用户), f (虚假用户/购买粉丝)
- 4类用户标签:r (真实用户), a (活跃虚假用户), i (不活跃虚假用户), s (垃圾信息发布者虚假用户)。其中,虚假用户的三个类别 (a, i, s) 由人工标注。
数据用途概述:
该数据集可用于社交媒体用户行为分析、虚假用户检测、机器学习模型训练、用户画像构建等多种应用场景。研究人员可以使用此数据进行分类,识别虚假用户;企业可以利用此数据进行市场营销策略优化和风险控制;开发者可以基于此数据集构建社交媒体分析工具。
请注意:如果您在任何工作中使用了此数据集,请引用以下论文:K. R. Purba, D. Asirvatham and R. K. Murugesan, "Classification of instagram fake users using supervised machine learning algorithms," International Journal of Electrical and Computer Engineering (IJECE), vol. 10, no. 3, pp. 2763-2772, 2020.