网页截图数据集

网页截图数据集 数据来源:互联网公开数据
标签:网页截图,视觉分类,图像识别,网页分类,数据集,计算机视觉,机器学习

数据概述:
本数据集包含20000个网页的URL、文本内容以及网页截图,截图分为1440x900像素和224x224像素两种分辨率。数据集根据网页的视觉外观将截图分为4类,适用于图像分类和视觉分析任务。数据集创建于2019年第二季度,是研究网页视觉特征和分类算法的重要资源。

数据用途概述:
该数据集适用于网页分类、图像识别、视觉特征提取、计算机视觉算法开发等场景。研究人员可利用此数据集进行网页分类模型的训练与评估,探索不同分辨率截图对分类性能的影响。开发者可将其用于训练图像分类器或视觉分析工具,助力网页内容理解与自动化处理。此外,数据集还支持学术研究,为相关领域的论文提供实验数据和基准测试。

引用方式:
若使用本数据集,请参考以下引用格式:
@data{aydos2020,
title={WebScreenshots},
url={https://www.kaggle.com/ds/202248},
DOI={10.34740/KAGGLE/DS/202248},
publisher={Kaggle},
author={Fahri Aydos},
year={2020}
}

数据集下载:
1440x900像素分辨率的截图可从以下链接下载:
https://drive.google.com/drive/folders/1RUTXO0nJLbmDPIO8h6aixhVyuhmvT7VB

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 434.08 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。