OWS_Based_网页爬取文档质量评分数据

数据集概述

本数据集包含OWS数据集的文档质量评分,基于QT5-small模型计算得出,与原数据集文件夹结构保持一致。评分文件按原元数据Parquet文件顺序对应,仅提供质量评分,不包含完整元数据文件。

文件详解

  • 文件名称:scores.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含与原OWS数据集元数据Parquet文件对应的质量评分文件,每个评分文件(如scores_0.txt)对应原metadata_0.parquet中的文档质量评分,评分表示文档与任意查询相关的对数概率值。

数据来源

论文“Document Quality Scoring for Web Crawling”

适用场景

  • 网页爬取质量优化:用于筛选高相关性文档,提升网络爬虫的内容采集效率和质量。
  • 搜索系统相关性评估:分析文档质量评分与查询相关性的匹配度,优化搜索引擎的结果排序。
  • 文档质量模型验证:基于QT5-small模型的评分结果,验证和改进文档质量评估算法。
  • 数据集预处理应用:为OWS数据集提供结构化质量标签,支持后续数据筛选和分析任务。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 257.38 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。