社交媒体网络话题与文档聚类数据集2015-2019

社交媒体网络话题与文档聚类数据集2015-2019 数据来源:互联网公开数据 标签:社交媒体网络,话题建模,文档聚类,推特,Reddit,政治讨论,主题标签,专家标注

数据概述: 本数据集包含来自两个在线社交网络(OSN)的数据集,适用于评估主题建模和文档聚类任务。数据集包括三个部分,每个部分都带有主题标签。其中,推特数据集仅发布推文标识符和主题标签,以符合推特的使用条款;Reddit数据集则提供了完整的评论文本和主题标签。数据集涵盖的内容包括使用Auspol标签的澳大利亚政治讨论推文,以及来自RepLab 2013竞赛的专家标注数据。此外,Reddit数据集还包括2015年5月来自5个子版块的40,000条父评论,每个子版块的主题被用作标签。

数据用途概述: 该数据集适用于主题建模和文档聚类的研究和评估,特别适合在在线社交网络环境中进行相关技术的验证。研究人员可以利用这些数据集来分析社交媒体上的政治讨论趋势、验证不同主题建模和文档聚类算法的有效性,并研究基于社交媒体的文档分类方法。此外,数据集中的专家标注内容也可以用于训练和评估自动化的文本分类系统。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 7.11 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。