数据集概述
本数据集包含2011至2015年Meneame首页故事及其讨论线程数据,涵盖72,005条故事和5,385,324条评论,每条讨论线程以JSON格式存储在对应日期文件夹中,记录内容、用户及互动信息。
文件详解
该数据集包含一个压缩文件,具体说明如下:
- 文件名称: meneame.zip
- 文件格式: ZIP (.zip)
- 内部结构: 按yyyy-mm-dd日期文件夹分类,每个文件夹内包含对应故事讨论线程的JSON文件,JSON文件字段包括:
- 通用字段(故事/评论):id、sent、message、user、karma、comments_count、votes、thread、thread_id、depth、url
- 故事专属字段:title、published、tags、clics、users、anonymous、negatives
- 评论专属字段:in_reply_to_id、in_reply_to_user、in_reply_to_thread_id
适用场景
- 在线讨论平台效应研究:分析对话线程结构对用户互动的影响
- 社交媒体内容分析:探究Meneame平台用户行为模式与内容传播规律
- 网络社区动力学研究:识别讨论线程深度、用户 karma 与评论数量的关联
- 计算社会科学研究:验证风险文化理论等框架在在线讨论中的应用
- 自然语言处理应用:用于文本分类、情感分析等模型训练