Instagram用户真实性评估数据集-社交媒体用户行为分析-2019年9月-krpurba

Instagram用户真实性评估数据集-社交媒体用户行为分析-2019年9月-krpurba

数据来源:互联网公开数据

标签:Instagram, 用户行为, 社交媒体, 虚假用户, 真实用户, 机器学习, 数据集, 社交网络分析, 用户画像, 欺诈检测

数据概述: 本数据集旨在研究和分析Instagram用户的真实性,包含真实用户和虚假用户(包括购买粉丝、垃圾信息发布者等)。数据通过网络爬虫从第三方Instagram网站收集,采集了用户的元数据以及最多12条最新的媒体帖子。数据收集时间为2019年9月1日至2019年9月20日。

真实用户样本来源于Instagram上24个私立大学(8个印尼、8个马来西亚、8个澳大利亚)官方账号的关注者。为了减少用户数量,采用了基于来源大学的比例随机抽样。所有私密账号均被移除,总共移除了31,335个用户,剩余32,460个公开用户。虚假用户由人工标注。

数据集包含以下字段:

  • pos (发布数量):用户总共发布的帖子数量。
  • flg (关注数量):用户关注的账号数量。
  • flr (粉丝数量):用户的粉丝数量。
  • bl (简介长度):用户个人简介的字符长度。
  • pic (头像可用性):如果用户没有头像,则值为0;如果有头像,则值为1。
  • lin (链接可用性):如果用户没有外部链接,则值为0;如果有外部链接,则值为1。
  • cl (平均标题长度):媒体帖子标题的平均字符长度。
  • cz (标题零值比例):标题字符长度接近于零(<=3)的帖子所占的比例 (0.0 到 1.0)。
  • ni (非图像比例):非图像媒体(视频、轮播)所占的比例 (0.0 到 1.0)。
  • erl (互动率-点赞):点赞互动率,计算方式为(点赞数) / (媒体数) / (粉丝数)。
  • erc (互动率-评论):评论互动率,计算方式与点赞互动率类似。
  • lt (位置标签比例):被标记位置的帖子所占的比例 (0.0 到 1.0)。
  • hc (平均话题标签数量):帖子中使用的平均话题标签数量。
  • pr (推广关键词):话题标签中推广关键词(如 {regrann, contest, repost, giveaway, mention, share, give away, quiz})的平均使用率。
  • fo (粉丝关键词):话题标签中粉丝获取关键词(如 {follow, like, folback, follback, f4f})的平均使用率。
  • cs (余弦相似度):用户所有帖子两两之间的平均余弦相似度。
  • pi (帖子间隔):帖子之间的平均时间间隔(以小时为单位)。

用户类别:

  • 2类用户标签:r (真实/真实用户), f (虚假用户/购买粉丝)
  • 4类用户标签:r (真实用户), a (活跃虚假用户), i (不活跃虚假用户), s (垃圾信息发布者虚假用户)。其中,虚假用户的三个类别 (a, i, s) 由人工标注。

数据用途概述: 该数据集可用于社交媒体用户行为分析、虚假用户检测、机器学习模型训练、用户画像构建等多种应用场景。研究人员可以使用此数据进行分类,识别虚假用户;企业可以利用此数据进行市场营销策略优化和风险控制;开发者可以基于此数据集构建社交媒体分析工具。

请注意:如果您在任何工作中使用了此数据集,请引用以下论文:K. R. Purba, D. Asirvatham and R. K. Murugesan, "Classification of instagram fake users using supervised machine learning algorithms," International Journal of Electrical and Computer Engineering (IJECE), vol. 10, no. 3, pp. 2763-2772, 2020.

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.21 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。