Common_Crawl_Based_站点地图与机器人协议链接综合数据集2023

数据集概述

本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图(Sitemaps)和机器人协议(robots.txt)链接综合列表,按Curlie.org目录顶级标签分类,提供各分类下的链接数量统计,可用于网络数据采集、网站结构分析等场景。

文件详解

  • 站点地图压缩包
  • 文件名称:all-sitemaps.zip、sitemaps-curlie.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含32,252,027个以.xml或.xml.gz结尾的站点地图链接,按Curlie.org目录顶级标签分类(如Arts、Business等),压缩后大小395.2 MB
  • 机器人协议压缩包
  • 文件名称:all-robotstxt.zip、robotstxt-curlie.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含41,611,704个机器人协议文件链接,按Curlie.org目录顶级标签分类(如Arts、Business等),压缩后大小440.9 MB

数据来源

Common Crawl 2023-50 WARC Archive dump of robots.txt files

适用场景

  • 网络爬虫策略优化:分析各分类网站的robots.txt规则,制定合规的爬虫抓取策略
  • 网站结构研究:通过sitemaps链接分析不同类别网站的内容组织方式
  • 网络资源索引:基于站点地图链接构建全面的网络资源索引库
  • 网络安全分析:检测异常的robots.txt配置,识别潜在的网站安全风险
  • 行业网站分布统计:利用Curlie分类数据统计各行业网站的数量分布情况
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 802.01 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。