数据集概述
该数据集包含四百四十名摩洛哥网络用户与网站管理员的结构化调查数据,围绕网络安全意识及HTTPS相关行为展开。数据通过Google Forms收集,经机器学习与大语言模型处理,涵盖原始响应、编码数据、聚类结果及分析报告,支持研究不同用户角色的HTTPS部署实践与安全浏览行为。
文件详解
该数据集按工作流阶段划分为多个目录,核心文件说明如下:
- 0_Documentation_and_Metadata目录:
- Dataset_dictionary.xlsx:Excel格式,数据集字典,解释字段含义
- README.txt:文本格式,数据集概述与使用说明
- 1_Collected_data目录:
- Collected_dataset.csv:CSV格式,原始调查响应数据,包含时间戳、用户角色、HTTPS认知相关问题答案等字段
- survey_link.txt:文本格式,调查表单链接
- survey_questions.pdf:PDF格式,结构化调查问卷全文
- 2_Preprocessed_data目录:
- Score_Map_Used.xlsx:Excel格式,问题评分映射规则文件
- Encoded_collected_dataset.csv:CSV格式,编码后的预处理数据,包含角色编码、各问题答案编码值等字段
- 3_Final_datasets目录:
- Webmasters_awareness_clusters.csv:CSV格式,网站管理员安全意识聚类结果数据
- Users_awareness_clusters.csv:CSV格式,普通用户安全意识聚类结果数据
- 4_Clustering_outputs目录:
- User_cluster_mean_values.json:JSON格式,普通用户聚类均值数据,包含各集群的安全意识评分等统计值
- User_pca_coordinates.json:JSON格式,普通用户主成分分析坐标数据
- Webmaster_cluster_mean_values.json:JSON格式,网站管理员聚类均值数据
- Webmaster_pca_coordinates.json:JSON格式,网站管理员主成分分析坐标数据
- 5_LLM_outputs目录:
- LLM_assessment_report_users.txt:文本格式,基于大语言模型生成的普通用户安全意识评估报告
- LLM_assessment_report_webmasters.txt:文本格式,基于大语言模型生成的网站管理员安全意识评估报告
适用场景
- 网络安全研究:分析摩洛哥网络用户与网站管理员的HTTPS认知水平及安全行为差异
- 用户角色行为分析:对比普通用户与网站管理员在HTTPS使用、安全配置上的行为模式
- 安全意识评估:基于聚类结果识别不同群体的安全意识薄弱环节
- 政策制定参考:为摩洛哥地区网络安全宣传教育策略提供数据支持
- 机器学习应用:验证聚类、主成分分析等算法在安全意识数据上的应用效果