数据集概述
本数据集用于支持在线社交系统主题一致性的研究,包含社交网络中的标签共现、社区结构、用户标签使用情况及关注好友关系等数据,共5个文件,涵盖文本和JSON格式,为分析社交系统内的主题关联与用户行为提供基础数据。
文件详解
- 标签共现图文件
- 文件名称:cooccurrence.txt
- 文件格式:TXT
- 字段映射介绍:每行记录两个标签及其共现次数,格式为“hashtag1 hashtag2 #cooccurrences”
- 社区文件
- 文件名称:communities.txt
- 文件格式:TXT
- 字段映射介绍:每行对应一个社区,包含该社区内的标签集合
- 用户标签使用文件
- 文件名称:users_hashtags.json
- 文件格式:JSON
- 字段映射介绍:每个用户对应一个标签列表及使用次数,结构为用户ID关联标签与使用频次的键值对
- 关注好友边文件
- 文件名称:follow_friend.txt
- 文件格式:TXT
- 字段映射介绍:记录2013年的社交网络关注好友边关系数据
- 说明文件
- 文件名称:README.txt
- 文件格式:TXT
- 字段映射介绍:数据集发布说明,包含各文件内容描述
数据来源
arXiv论文“Topical alignment in online social systems”(论文链接:https://arxiv.org/abs/1707.06525)
适用场景
- 社交网络主题一致性分析: 利用标签共现数据研究社交系统内主题的关联模式与聚合特征
- 社区结构挖掘: 通过社区文件识别社交网络中的主题社区边界与内部构成
- 用户行为分析: 基于用户标签使用数据探究用户兴趣偏好与主题参与度
- 社交关系网络研究: 结合关注好友边数据分析社交连接与主题传播的关联
- 社交系统主题演化建模: 整合多维度数据构建在线社交系统主题动态变化模型