SentiTopicNet_Based_NLP数据与代码资源包

本数据集为SentiTopicNet相关的自然语言处理资源集合，包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务，总计17个文件，覆盖数据、词典与代码三类资源，可用于自然语言处理相关的模型训练与分析。

数据文件
文件名称：data.xlsx
文件格式：XLSX
字段映射介绍：未提供具体字段信息，为自然语言处理任务的原始数据文件
词典文件
文件名称：stop_words.txt、my_dict.txt、dict_baidu_utf8.txt、dict_pangu.txt、dict_sougou_utf8.txt、dict_tencent_utf8.txt
文件格式：TXT
字段映射介绍：包含停用词词典、自定义词典及百度、盘古、搜狗、腾讯等第三方参考词典，用于自然语言处理中的文本分词与预处理
代码文件
数据采集代码：get_cookie.py、weiboSpider_v1.0.3.py、Crawl_user_information.py（用于获取用户信息及微博数据）
数据预处理代码：preproce.py（用于文本数据预处理）
情感分析代码：cnn_BiLSTM_att.py（基于CNN-BiLSTM注意力机制的情感分析模型）
主题分析代码：0.wordvec.py（词向量训练）、1.top_num.py（主题数量确定）、2.LDA.py（LDA主题模型训练）、3.topic_evolution.py（主题演化分析）
文件格式：PY

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	74.73 MiB
最后更新	2026年1月29日
创建于	2026年1月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。