CyberSecNews_Based_德英网络安全新闻人工分类标注数据集

数据集概述

本数据集包含457篇德语和英语新闻文章,通过RSS源从各类新闻网站和博客收集。每篇文章经AIT数字安全与安全中心同事人工分类,标注为“网络安全”“非网络安全”或“不确定”,并提供文章标题、内容、语言、来源、发布时间、版权声明及参与者分类结果等信息,无缺失值。

文件详解

  • 文件名称:cybersec_news_de_en.json
  • 文件格式:JSON
  • 字段映射介绍:包含标题(title)、内容(content)、语言(language)、来源名称(source_name)、来源URL(source_url)、发布时间(published)、版权声明(copyright_statement)、参与者分类结果(classifications)、最终标签(cybersecurity)等字段,无缺失值。
  • 文件名称:cybersec_news_de_en.csv
  • 文件格式:CSV
  • 字段映射介绍:字段与JSON文件一致,以表格形式存储,包含标题、内容、语言、来源名称、来源URL、发布时间、版权声明、参与者分类结果(JSON格式字符串)、最终标签字段,无缺失值。

数据来源

Austrian Institute of Technology (AIT) Center for Digital Safety and Security

适用场景

  • 网络安全新闻分类模型训练: 利用标注好的“cybersecurity”标签,训练文本分类模型识别网络安全相关新闻。
  • 多语言文本分类研究: 基于德语和英语双语文本,研究跨语言分类算法的性能。
  • 新闻内容主题分析: 分析网络安全新闻的主题分布、来源特征及发布时间规律。
  • 人工标注一致性评估: 通过“classifications”字段研究多标注者对网络安全新闻分类的一致性。
  • 版权声明数据研究: 分析新闻来源的版权声明模式及缺失情况。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.98 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。