-
Common_Crawl_Based_站点地图与机器人协议链接综合数据集2023
2026年1月15日 30 50 49
数据集概述 本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图(Sitemaps)和机器人协议(robots.txt)链接综合列表,按Curlie.org目录顶级标签分类,提供各分类下的链接数量统计,可用于网络数据采集、网站结构分析等场景。 文件详解 站点地图压缩包 文件名称:all-...
-
Altmetric_Iran_Turkey_Based_期刊替代计量关注度影响因素研究数据
2026年1月13日 30 181 164
数据集概述 本数据集聚焦伊朗和土耳其两国同行评审期刊的替代计量指标,研究其与期刊网站结构设计、学科主题及全文语言等因素的相关性。数据集包含一个Excel文件,为分析非英语国家学术期刊的替代计量影响机制提供基础数据支持。 文件详解 文件名称:altmetric Iran -Turkey journals.xlsx 文件格式:XLSX...
-
Scikit-Learn网站结构与超链接分析数据集-yajnas54
2025年4月22日 30 86 65
Scikit-Learn网站结构与超链接分析数据集-yajnas54 数据来源:互联网公开数据 标签:Scikit-Learn,机器学习,网站结构,超链接分析,数据探索,网络分析 数据概述: 本数据集以简单易用的格式捕获了Scikit-...



