数据集概述
本数据集包含457篇德语和英语新闻文章,通过RSS源从各类新闻网站和博客收集。每篇文章经AIT数字安全与安全中心同事人工分类,标注为“网络安全”“非网络安全”或“不确定”,并提供文章标题、内容、语言、来源、发布时间、版权声明及参与者分类结果等信息,无缺失值。
文件详解
- 文件名称:cybersec_news_de_en.json
- 文件格式:JSON
- 字段映射介绍:包含标题(title)、内容(content)、语言(language)、来源名称(source_name)、来源URL(source_url)、发布时间(published)、版权声明(copyright_statement)、参与者分类结果(classifications)、最终标签(cybersecurity)等字段,无缺失值。
- 文件名称:cybersec_news_de_en.csv
- 文件格式:CSV
- 字段映射介绍:字段与JSON文件一致,以表格形式存储,包含标题、内容、语言、来源名称、来源URL、发布时间、版权声明、参与者分类结果(JSON格式字符串)、最终标签字段,无缺失值。
数据来源
Austrian Institute of Technology (AIT) Center for Digital Safety and Security
适用场景
- 网络安全新闻分类模型训练: 利用标注好的“cybersecurity”标签,训练文本分类模型识别网络安全相关新闻。
- 多语言文本分类研究: 基于德语和英语双语文本,研究跨语言分类算法的性能。
- 新闻内容主题分析: 分析网络安全新闻的主题分布、来源特征及发布时间规律。
- 人工标注一致性评估: 通过“classifications”字段研究多标注者对网络安全新闻分类的一致性。
- 版权声明数据研究: 分析新闻来源的版权声明模式及缺失情况。