-
Web_scrapping_public_教学用空白数据集示例
2026年1月29日 30 145 110
数据集概述 本数据集是一个Web scrapping(网络爬虫)空白数据集示例,包含与已通过其他途径提供给教师的私有数据集相同的列结构,但数据为虚假数据。数据集仅含一个文件,用于教学或演示场景。 文件详解 文件名称:PRAC1_dataset_public.xlsx 文件格式:XLSX...
-
burocraciaBR_巴西联邦官僚机构公务员传记数据集2011_2021
2026年1月20日 30 132 104
数据集概述 本数据集包含巴西联邦官僚机构相关数据,是UFSCar博士后项目的一部分,收集了超过八百名公务员的传记数据,涵盖2011至2021年三届政府期间文化部、农业部和科技部公务员的教育及职业经历,还包含用于抓取政府官方公报文档的Python代码。 文件详解 压缩文件 文件名称:fierycherry/burocraciaBR-...
-
Toluca_GM_2020_托卢卡房地产数据与社区边缘化程度数据集_2024
2026年1月19日 30 153 115
数据集概述 本数据集包含2024年7月、10月和11月通过网络爬虫从墨西哥托卢卡市各社区收集的房地产信息,涵盖房产结构特征、地理位置、价格及社区2020年边缘化程度(GM_2020)。数据以CSV格式存储,附数据字典文档,可用于分析托卢卡房地产市场与社区社会经济特征的关联。 文件详解 数据文件 文件名称:Inmuebles_Toluca.csv...
-
arnaugiribet_scrapings_塔拉戈纳港2019年船舶停靠数据集
2026年1月19日 30 148 83
数据集概述 本数据集记录了2019年西班牙塔拉戈纳港的船舶停靠信息,通过网络爬虫工具从指定仓库获取,包含一份结构化表格文件,可用于港口运营分析和船舶活动统计。 文件详解 文件名称:Escales Vaixells_2019.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,推测包含船舶停靠相关的核心数据(如船舶信息、停靠时间、停靠类型等)...
-
Intro_to_Digital_Media_Based_学习者中心设计原始博客数据
2026年1月18日 30 21 1
数据集概述 本数据集为数字媒体导论模块相关的公开博客文章精选摘录,聚焦学习者在网络空间分享的学习者中心设计原则多元视角,用于支持开放教育研究,提供定性数据以分析话语趋势、实践者反思及机构叙事,助力教育领域数字对话的探索。 文件详解 文件名称:Intro to Digital Media Blog Raw Data.xlsx 文件格式:XLSX...
-
Common_Crawl_Based_站点地图与机器人协议链接综合数据集2023
2026年1月15日 30 10 4
数据集概述 本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图(Sitemaps)和机器人协议(robots.txt)链接综合列表,按Curlie.org目录顶级标签分类,提供各分类下的链接数量统计,可用于网络数据采集、网站结构分析等场景。 文件详解 站点地图压缩包 文件名称:all-...
-
paucampana_PisosScrapper_1_0_3版本网页爬虫工具压缩包
2026年1月14日 30 85 78
数据集概述 本数据集包含paucampana开发的Pisos Scrapper网页爬虫工具的1.0.3版本压缩包。工具用于网页数据采集,数据集仅包含一个压缩文件,无训练测试、数据标签或原始处理数据的划分,无自述文件或内容预览。 文件详解 文件名称:paucampana/pisosScrapper-1.0.3.zip 文件格式:ZIP...
-
葡萄牙语编程练习数据集PROGRAMEXBR
2025年12月24日 30 68 26
数据集概述 该数据集为葡萄牙语编程练习数据集,包含编程练习的说明、测试用例及元数据,通过网络爬虫技术从指定平台收集并建模,旨在填补巴西葡萄牙语编程练习数据集的空白。 文件详解 文件名称:PROGRAMEXBR: A Dataset of Programming Exercises in Portuguese.zip 文件格式:ZIP压缩包...
-
葡萄牙风能治理公众参与数据集2023
2025年12月10日 30 181 0
数据集概述 该数据集是《A quiet public? Procedural justice in Portuguese wind energy governance》期刊文章的配套数据,包含截至2023年葡萄牙风电和分散式太阳能项目公众咨询流程的网络爬虫数据库,以及用于分析数据的R Markdown文件,为研究葡萄牙能源治理中的公众参与提供支持。...
-
SM01_Web爬虫基准测试QES15与QES30实验结果数据集
2025年11月29日 30 64 39
数据集概述 该数据集包含SM01研究项目中QES15和QES30两个Web爬虫基准测试的实验结果,对比BF、PR、HITS和SM四种爬虫在塞尔维亚金属制造领域多语言网站子集上的性能,两个实验的单域名最大页面加载限制分别为15和30页。 文件详解 QES15_Sd_reports.zip:ZIP格式压缩包,可能包含QES15实验的详细报告文件...
-
RateMyProfessor研究项目网络爬虫与数据分析代码
2025年11月28日 30 169 44
数据集概述 该数据集包含RateMyProfessor研究项目相关的网络爬虫代码与数据分析代码,以压缩包形式存储,为相关研究提供代码资源支持。 文件详解 文件名称: RMP_code.zip 文件格式: ZIP (.zip) 文件内容: 压缩包内包含RateMyProfessor研究项目的网络爬虫代码与数据分析代码,具体代码内容未提供预览。 适用场景...
-
DLC并行执行模式网络爬取实验报告_SM01
2025年11月28日 30 77 55
数据集概述 本数据集为SM01研究项目的实验报告,聚焦DLC并行执行模式下的网络爬取。通过设置不同Load Take(LT)值,分析爬取质量与性能增益的关系,实验基于Sc和Sn两个样本集,包含原始数据与分析结果文件。 文件详解 样本集文件: Sn_subset.txt:TXT格式,包含Sn样本集的目标网站URL列表...
-
最高审计机关决策分析Python脚本集_潜在狄利克雷分配法
2025年11月28日 30 164 50
数据集概述 本数据集为分析最高审计机关决策的Python脚本集合,采用潜在狄利克雷分配(LDA)方法,包含数据爬取、处理、分析及环境配置文件,支持审计决策文本的主题建模研究。 文件详解 apply_method.ipynb:Jupyter Notebook格式,调用sai_data.py中的函数执行LDA分析,实现审计决策文本的主题建模流程...
-
巴西监狱与再社会化偏好相关Instagram脚本数据集
2025年11月27日 30 7 6
数据集概述 该数据集包含用于从Instagram平台检索与“巴西监狱与再社会化偏好”相关内容的脚本文件,具体为获取Reels链接和提取视频的自动化脚本,支持相关主题内容的批量采集工作。 文件详解 目录结构: 数据集包含1个主目录 What the Brazilian Likes About Prison and Resocial/,目录深度为1级...
-
SM01_制造业多语言网页并行语义爬虫实验报告
2025年11月26日 30 176 123
数据集概述 本数据集为SM01项目(制造业多语言网页并行语义爬虫)的实验报告,聚焦JLC并行执行模式下不同并行线程数对爬虫效率的影响,包含实验配置、结果及相关资源链接等内容。 文件详解 文件名称:PJLC_overview_and_charts.xlsx,文件格式:.xlsx,可能包含实验结果概览及可视化图表数据...
-
网页内容安全检测数据集
2025年11月6日 30 85 11
网页内容安全检测数据集_Web_Content_Security_Detection_Dataset 数据来源:互联网公开数据 标签:网页安全, 网络爬虫, HTML, 文本分类, 恶意网页, 机器学习, 数据挖掘, 安全检测 数据概述: 该数据集包含从互联网上抓取的网页内容,记录了网页的URL、HTML源代码以及对应的安全标签。主要特征如下:...
-
NFT稀有性集合数据集-2023年-rutumpatil
2025年6月1日 30 79 8
NFT稀有性集合数据集-2023年-rutumpatil 数据来源:互联网公开数据 标签:NFT,稀有性,区块链,艺术,加密货币,集合,数据,网络爬虫,数据集生成 数据概述:...
-
网站XML站点地图数据集
2025年5月31日 30 186 16
网站XML站点地图数据集 数据来源:互联网公开数据 标签:XML,站点地图,CSV格式,网络爬虫,数据提取,站点分析,网页抓取,SEO优化,数据集成 数据概述: 本数据集包含多个网站的XML站点地图,以CSV格式存储。数据集由advertools函数sitemap_to_df生成,支持通过sitemap...
-
网页抓取数据集CrawlData-fdfyaytkt
2025年5月30日 30 176 23
网页抓取数据集CrawlData-fdfyaytkt 数据来源:互联网公开数据 标签:网页抓取,数据集,文本分析,自然语言处理,网络数据,信息检索,数据挖掘,网络爬虫 数据概述: 该数据集包含了从互联网上抓取到的网页内容数据,涵盖了各种主题和来源。主要特征如下: 时间跨度: 数据记录的时间范围不定,取决于网页抓取的具体时间。 地理范围:...
-
图书ISBN信息抓取数据集-robinfaro13
2025年5月29日 30 11 3
图书ISBN信息抓取数据集-robinfaro13 数据来源:互联网公开数据 标签:图书,ISBN,数据集,网络爬虫,文本分析,图书信息,出版物,数据挖掘 数据概述: 该数据集包含了通过网络抓取获得的图书ISBN信息,记录了图书的基本信息,主要特征如下: 时间跨度:数据抓取时间集中在近期。 地理范围:数据主要来源于全球范围内的图书出版信息。...



