数据集 - 海数据

Web_scrapping_public_教学用空白数据集示例

2026年1月29日 30 145 110

数据集概述本数据集是一个Web scrapping（网络爬虫）空白数据集示例，包含与已通过其他途径提供给教师的私有数据集相同的列结构，但数据为虚假数据。数据集仅含一个文件，用于教学或演示场景。文件详解文件名称：PRAC1_dataset_public.xlsx 文件格式：XLSX...

ZIP

burocraciaBR_巴西联邦官僚机构公务员传记数据集2011_2021

2026年1月20日 30 132 104

数据集概述本数据集包含巴西联邦官僚机构相关数据，是UFSCar博士后项目的一部分，收集了超过八百名公务员的传记数据，涵盖2011至2021年三届政府期间文化部、农业部和科技部公务员的教育及职业经历，还包含用于抓取政府官方公报文档的Python代码。文件详解压缩文件文件名称：fierycherry/burocraciaBR-...

ZIP

Toluca_GM_2020_托卢卡房地产数据与社区边缘化程度数据集_2024

2026年1月19日 30 153 115

数据集概述本数据集包含2024年7月、10月和11月通过网络爬虫从墨西哥托卢卡市各社区收集的房地产信息，涵盖房产结构特征、地理位置、价格及社区2020年边缘化程度（GM_2020）。数据以CSV格式存储，附数据字典文档，可用于分析托卢卡房地产市场与社区社会经济特征的关联。文件详解数据文件文件名称：Inmuebles_Toluca.csv...

ZIP

arnaugiribet_scrapings_塔拉戈纳港2019年船舶停靠数据集

2026年1月19日 30 148 83

数据集概述本数据集记录了2019年西班牙塔拉戈纳港的船舶停靠信息，通过网络爬虫工具从指定仓库获取，包含一份结构化表格文件，可用于港口运营分析和船舶活动统计。文件详解文件名称：Escales Vaixells_2019.xlsx 文件格式：XLSX 字段映射介绍：未提供具体字段信息，推测包含船舶停靠相关的核心数据（如船舶信息、停靠时间、停靠类型等）...

ZIP

Intro_to_Digital_Media_Based_学习者中心设计原始博客数据

2026年1月18日 30 21 1

数据集概述本数据集为数字媒体导论模块相关的公开博客文章精选摘录，聚焦学习者在网络空间分享的学习者中心设计原则多元视角，用于支持开放教育研究，提供定性数据以分析话语趋势、实践者反思及机构叙事，助力教育领域数字对话的探索。文件详解文件名称：Intro to Digital Media Blog Raw Data.xlsx 文件格式：XLSX...

ZIP

Common_Crawl_Based_站点地图与机器人协议链接综合数据集2023

2026年1月15日 30 10 4

数据集概述本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图（Sitemaps）和机器人协议（robots.txt）链接综合列表，按Curlie.org目录顶级标签分类，提供各分类下的链接数量统计，可用于网络数据采集、网站结构分析等场景。文件详解站点地图压缩包文件名称：all-...

ZIP

paucampana_PisosScrapper_1_0_3版本网页爬虫工具压缩包

2026年1月14日 30 85 78

数据集概述本数据集包含paucampana开发的Pisos Scrapper网页爬虫工具的1.0.3版本压缩包。工具用于网页数据采集，数据集仅包含一个压缩文件，无训练测试、数据标签或原始处理数据的划分，无自述文件或内容预览。文件详解文件名称：paucampana/pisosScrapper-1.0.3.zip 文件格式：ZIP...

ZIP

葡萄牙语编程练习数据集PROGRAMEXBR

2025年12月24日 30 68 26

数据集概述该数据集为葡萄牙语编程练习数据集，包含编程练习的说明、测试用例及元数据，通过网络爬虫技术从指定平台收集并建模，旨在填补巴西葡萄牙语编程练习数据集的空白。文件详解文件名称：PROGRAMEXBR: A Dataset of Programming Exercises in Portuguese.zip 文件格式：ZIP压缩包...

ZIP

葡萄牙风能治理公众参与数据集2023

2025年12月10日 30 181 0

数据集概述该数据集是《A quiet public? Procedural justice in Portuguese wind energy governance》期刊文章的配套数据，包含截至2023年葡萄牙风电和分散式太阳能项目公众咨询流程的网络爬虫数据库，以及用于分析数据的R Markdown文件，为研究葡萄牙能源治理中的公众参与提供支持。...

ZIP

SM01_Web爬虫基准测试QES15与QES30实验结果数据集

2025年11月29日 30 64 39

数据集概述该数据集包含SM01研究项目中QES15和QES30两个Web爬虫基准测试的实验结果，对比BF、PR、HITS和SM四种爬虫在塞尔维亚金属制造领域多语言网站子集上的性能，两个实验的单域名最大页面加载限制分别为15和30页。文件详解 QES15_Sd_reports.zip：ZIP格式压缩包，可能包含QES15实验的详细报告文件...

ZIP

RateMyProfessor研究项目网络爬虫与数据分析代码

2025年11月28日 30 169 44

数据集概述该数据集包含RateMyProfessor研究项目相关的网络爬虫代码与数据分析代码，以压缩包形式存储，为相关研究提供代码资源支持。文件详解文件名称: RMP_code.zip 文件格式: ZIP (.zip) 文件内容: 压缩包内包含RateMyProfessor研究项目的网络爬虫代码与数据分析代码，具体代码内容未提供预览。适用场景...

ZIP

DLC并行执行模式网络爬取实验报告_SM01

2025年11月28日 30 77 55

数据集概述本数据集为SM01研究项目的实验报告，聚焦DLC并行执行模式下的网络爬取。通过设置不同Load Take（LT）值，分析爬取质量与性能增益的关系，实验基于Sc和Sn两个样本集，包含原始数据与分析结果文件。文件详解样本集文件： Sn_subset.txt：TXT格式，包含Sn样本集的目标网站URL列表...

ZIP

最高审计机关决策分析Python脚本集_潜在狄利克雷分配法

2025年11月28日 30 164 50

数据集概述本数据集为分析最高审计机关决策的Python脚本集合，采用潜在狄利克雷分配（LDA）方法，包含数据爬取、处理、分析及环境配置文件，支持审计决策文本的主题建模研究。文件详解 apply_method.ipynb：Jupyter Notebook格式，调用sai_data.py中的函数执行LDA分析，实现审计决策文本的主题建模流程...

ZIP

巴西监狱与再社会化偏好相关Instagram脚本数据集

2025年11月27日 30 7 6

数据集概述该数据集包含用于从Instagram平台检索与“巴西监狱与再社会化偏好”相关内容的脚本文件，具体为获取Reels链接和提取视频的自动化脚本，支持相关主题内容的批量采集工作。文件详解目录结构: 数据集包含1个主目录 What the Brazilian Likes About Prison and Resocial/，目录深度为1级...

ZIP

SM01_制造业多语言网页并行语义爬虫实验报告

2025年11月26日 30 176 123

数据集概述本数据集为SM01项目（制造业多语言网页并行语义爬虫）的实验报告，聚焦JLC并行执行模式下不同并行线程数对爬虫效率的影响，包含实验配置、结果及相关资源链接等内容。文件详解文件名称：PJLC_overview_and_charts.xlsx，文件格式：.xlsx，可能包含实验结果概览及可视化图表数据...

ZIP

网页内容安全检测数据集

2025年11月6日 30 85 11

网页内容安全检测数据集_Web_Content_Security_Detection_Dataset 数据来源：互联网公开数据标签：网页安全, 网络爬虫, HTML, 文本分类, 恶意网页, 机器学习, 数据挖掘, 安全检测数据概述：该数据集包含从互联网上抓取的网页内容，记录了网页的URL、HTML源代码以及对应的安全标签。主要特征如下：...

ZIP

NFT稀有性集合数据集-2023年-rutumpatil

2025年6月1日 30 79 8

NFT稀有性集合数据集-2023年-rutumpatil 数据来源：互联网公开数据标签：NFT,稀有性,区块链,艺术,加密货币,集合,数据,网络爬虫,数据集生成数据概述：...

ZIP

网站XML站点地图数据集

2025年5月31日 30 186 16

网站XML站点地图数据集数据来源：互联网公开数据标签：XML,站点地图,CSV格式,网络爬虫,数据提取,站点分析,网页抓取,SEO优化,数据集成数据概述：本数据集包含多个网站的XML站点地图，以CSV格式存储。数据集由advertools函数sitemap_to_df生成，支持通过sitemap...

ZIP

网页抓取数据集CrawlData-fdfyaytkt

2025年5月30日 30 176 23

网页抓取数据集CrawlData-fdfyaytkt 数据来源：互联网公开数据标签：网页抓取，数据集，文本分析，自然语言处理，网络数据，信息检索，数据挖掘，网络爬虫数据概述：该数据集包含了从互联网上抓取到的网页内容数据，涵盖了各种主题和来源。主要特征如下：时间跨度：数据记录的时间范围不定，取决于网页抓取的具体时间。地理范围：...

ZIP

图书ISBN信息抓取数据集-robinfaro13

2025年5月29日 30 11 3

图书ISBN信息抓取数据集-robinfaro13 数据来源：互联网公开数据标签：图书，ISBN，数据集，网络爬虫，文本分析，图书信息，出版物，数据挖掘数据概述：该数据集包含了通过网络抓取获得的图书ISBN信息，记录了图书的基本信息，主要特征如下：时间跨度：数据抓取时间集中在近期。地理范围：数据主要来源于全球范围内的图书出版信息。...

ZIP

找到93个数据集

注册成功！