找到5个数据集

标签: 网页爬取

过滤结果
  • OWS_Based_网页爬取文档质量评分数据

    2026年2月1日 30 86 40

    数据集概述 本数据集包含OWS数据集的文档质量评分,基于QT5-small模型计算得出,与原数据集文件夹结构保持一致。评分文件按原元数据Parquet文件顺序对应,仅提供质量评分,不包含完整元数据文件。 文件详解 文件名称:scores.zip 文件格式:ZIP...
    packageimg
  • GitHub_Based数据质量评估研究复制包_2014

    2026年1月30日 30 140 41

    数据集概述 本数据集是EASE 2014论文《Data Quality Assessment in the Wild: Findings from GitHub》的复制包,包含研究中使用的全部数据文件与代码文件,总计五个文件,覆盖GitHub数据质量评估的核心分析内容与工具支持。 文件详解 数据文件(共3个,格式均为.xlsx)...
    packageimg
  • 加泰罗尼亚政府网页爬取语料库2020

    2025年12月13日 30 88 3

    数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
    packageimg
  • 商品信息哈希值数据集ProductInformationHashValuesDataset-eguhopor

    2025年5月30日 30 33 4

    商品信息哈希值数据集ProductInformationHashValuesDataset-eguhopor 数据来源:互联网公开数据 标签:商品信息, 哈希值, 数据比对, 数据清洗, 文本分析, 零售数据, 数据安全, 网页爬取 数据概述: 该数据集包含来自多个电商网站的商品信息,记录了商品的名称、URL链接以及对应的哈希值。主要特征如下:...
    packageimg
  • 萨斯特拉大学Sastraedu网页爬取邻接表数据集-ashiktcy

    2025年4月25日 30 166 148

    萨斯特拉大学Sastraedu网页爬取邻接表数据集-ashiktcy 数据来源:互联网公开数据 标签:网页爬取,邻接表,数据集,网络分析,图数据,信息检索,教育,大学 数据概述: 该数据集包含了从萨斯特拉大学(Sastraedu)官方网站爬取的网页邻接表信息。主要特征如下: 时间跨度:数据爬取时间为[具体爬取时间,例如2024年5月]。...
    packageimg