社交问答网站匿名用户去匿名化研究数据集-tianbaojie

社交问答网站匿名用户去匿名化研究数据集-tianbaojie 数据来源:互联网公开数据 标签:社交问答,匿名用户,去匿名化,Zhihu,Quora,用户行为,文本分析,隐私保护,数据挖掘 数据概述: 本数据集旨在支持社交问答网站匿名用户去匿名化研究,采集自国内平台知乎(Zhihu)和国外平台Quora的公开数据。数据集构建过程主要分为四个步骤:首先,选取与十大热门话题相关的种子用户,每个话题选取一个种子用户以确保数据集涵盖广泛的话题范围。其次,基于种子用户,递归爬取用户之间的社交关系,并限制每个用户爬取的前100个关注用户,直至用户池达到70万。第三,使用社区发现算法识别具有最高传递性的社区,且该社区人数超过5000人,并爬取该社区的所有用户。最后,提取社区内所有用户相关数据,包括用户主页信息、用户之间的关系、用户发布的问答、评论和话题。为了控制数据量,每个用户爬取的回答数量上限设定为覆盖95%的用户回答。

数据集中,每个问题包含问题标题和提问者姓名;每个回答包含作者姓名、提交时间、回答内容以及一级评论;每个评论包含评论者、提交时间和评论内容。

数据用途概述: 该数据集主要用于研究社交问答网站中匿名用户的去匿名化问题,旨在评估特定匿名回答的隐私泄露风险并解释其易受去匿名化攻击的原因。研究人员可以利用此数据进行文本分析、用户行为分析、社交网络分析等,以探索匿名用户的身份恢复方法,并评估各种去匿名化攻击的有效性。此外,该数据集也可用于开发隐私保护技术,提升社交问答平台的匿名性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 567.33 MiB
最后更新 2025年5月30日
创建于 2025年5月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。