Webis网页错误标注数据集2019

数据集概述

本数据集包含对Webis-Web-Archive-17中一万个网页存档的多种标注,涵盖广告占比、页面完整性、加载状态、色情内容等类别,以及弹窗、验证码、错误信息的显示程度,为网页内容质量分析提供标注数据支持。

文件详解

该数据集包含四个文件,具体说明如下: - 数据文件: - webis-web-archive-17-content-errors.csv: CSV格式文件,包含网页标注数据,字段包括id(网页ID)、ad(是否为广告)、cutoff(是否截断)、loading(是否加载中)、pornographic(是否色情)、popup(弹窗显示程度)、captcha(验证码显示程度)、error(错误信息显示程度)。 - 文档文件: - webis-web-archive-17-content-error-tags.txt: TXT格式文件,包含网页错误标签相关内容。 - 图像文件: - annotation-interface.png: PNG格式图片,展示标注界面。 - curation-interface.png: PNG格式图片,展示整理界面。

适用场景

  • 网页存档质量评估: 分析网页存档的内容完整性、加载状态及干扰元素分布。
  • 网络内容过滤研究: 探索广告、色情内容等不良信息的自动识别方法。
  • 用户体验分析: 研究弹窗、验证码等元素对网页浏览体验的影响。
  • 数字档案管理: 优化网页存档的筛选与整理策略,提升存档资源可用性。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.65 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。