数据集概述
本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图(Sitemaps)和机器人协议(robots.txt)链接综合列表,按Curlie.org目录顶级标签分类,提供各分类下的链接数量统计,可用于网络数据采集、网站结构分析等场景。
文件详解
- 站点地图压缩包
- 文件名称:all-sitemaps.zip、sitemaps-curlie.zip
- 文件格式:ZIP
- 字段映射介绍:包含32,252,027个以.xml或.xml.gz结尾的站点地图链接,按Curlie.org目录顶级标签分类(如Arts、Business等),压缩后大小395.2 MB
- 机器人协议压缩包
- 文件名称:all-robotstxt.zip、robotstxt-curlie.zip
- 文件格式:ZIP
- 字段映射介绍:包含41,611,704个机器人协议文件链接,按Curlie.org目录顶级标签分类(如Arts、Business等),压缩后大小440.9 MB
数据来源
Common Crawl 2023-50 WARC Archive dump of robots.txt files
适用场景
- 网络爬虫策略优化:分析各分类网站的robots.txt规则,制定合规的爬虫抓取策略
- 网站结构研究:通过sitemaps链接分析不同类别网站的内容组织方式
- 网络资源索引:基于站点地图链接构建全面的网络资源索引库
- 网络安全分析:检测异常的robots.txt配置,识别潜在的网站安全风险
- 行业网站分布统计:利用Curlie分类数据统计各行业网站的数量分布情况