数据集概述
本数据集为SentiTopicNet相关的自然语言处理资源集合,包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务,总计17个文件,覆盖数据、词典与代码三类资源,可用于自然语言处理相关的模型训练与分析。
文件详解
- 数据文件
- 文件名称:data.xlsx
- 文件格式:XLSX
- 字段映射介绍:未提供具体字段信息,为自然语言处理任务的原始数据文件
- 词典文件
- 文件名称:stop_words.txt、my_dict.txt、dict_baidu_utf8.txt、dict_pangu.txt、dict_sougou_utf8.txt、dict_tencent_utf8.txt
- 文件格式:TXT
- 字段映射介绍:包含停用词词典、自定义词典及百度、盘古、搜狗、腾讯等第三方参考词典,用于自然语言处理中的文本分词与预处理
- 代码文件
- 数据采集代码:get_cookie.py、weiboSpider_v1.0.3.py、Crawl_user_information.py(用于获取用户信息及微博数据)
- 数据预处理代码:preproce.py(用于文本数据预处理)
- 情感分析代码:cnn_BiLSTM_att.py(基于CNN-BiLSTM注意力机制的情感分析模型)
- 主题分析代码:0.wordvec.py(词向量训练)、1.top_num.py(主题数量确定)、2.LDA.py(LDA主题模型训练)、3.topic_evolution.py(主题演化分析)
- 文件格式:PY
适用场景
- 自然语言处理模型开发: 利用提供的代码与词典,构建文本预处理、情感分析及主题分析模型
- 社交媒体数据分析: 通过微博爬虫代码采集并分析社交媒体文本数据的情感倾向与主题分布
- 词典资源应用研究: 对比不同第三方词典在中文文本处理任务中的效果差异
- 深度学习模型优化: 基于CNN-BiLSTM注意力模型,探索情感分析任务的模型改进方向
- 主题演化分析: 利用LDA模型及主题演化代码,研究文本数据中主题随时间的变化规律