数据集概述
本数据集包含2024年3-8月从俄语YouTube吸烟主题热门视频收集的评论数据,通过情感、论点类型、作者性别和年龄等维度分类。数据涵盖16.5万条原始评论、5.8万条论点分类评论及5.5万条性别年龄分类评论,为吸烟相关社会讨论研究提供结构化数据支持。
文件详解
- 文件名称:Database SMOKING2025LMSU.xlsx
- 文件格式:XLSX
- 字段映射介绍:
- Sheet 'YouTube Video 204':记录204个热门视频的基础信息
- Sheet 'All Comments 165th':16.5万条原始评论,含Sentiment字段(NEGATIVE/neutral/POSITIVE)
- Sheet 'Argument 58ths':5.8万条论点分类评论,含Argument type字段(0-6,对应不同论点类型及分类错误)
- Sheet 'Gender&Age 5.5ths':5.5万条性别年龄分类评论,含gender字段(0-3,对应男/女/无法识别/错误)、age字段(0-3,对应<18/19-34/35+/错误)
适用场景
- 公共卫生政策研究:分析吸烟相关讨论中的公众态度和论点分布,为控烟政策制定提供参考
- 社交媒体行为分析:研究不同性别、年龄群体对吸烟话题的讨论特征和情感倾向
- 自然语言处理应用:验证LLM在俄语评论情感分析、论点识别及作者属性预测中的效果
- 社会心理学研究:探索公众对吸烟行为的认知差异及影响因素
- 健康教育策略优化:基于评论中的关键论点,设计更具针对性的吸烟干预和健康教育内容