找到18个数据集

标签: 数据爬取

过滤结果
  • Test_Based_爬虫测试数据集

    2026年2月15日 30 17 14

    数据集概述 本数据集是用于数据爬取目的的测试数据集,包含一个压缩文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,无自述文件或内容预览,文件类型单一为压缩包格式。 文件详解 压缩文件 文件名称:test.zip 文件格式:ZIP 字段映射介绍:无可用字段映射信息,无自述文件或内容预览。 适用场景 数据爬取工具测试:...
    packageimg
  • GitHub_Based数据质量评估研究复制包_2014

    2026年1月30日 30 36 13

    数据集概述 本数据集是EASE 2014论文《Data Quality Assessment in the Wild: Findings from GitHub》的复制包,包含研究中使用的全部数据文件与代码文件,总计五个文件,覆盖GitHub数据质量评估的核心分析内容与工具支持。 文件详解 数据文件(共3个,格式均为.xlsx)...
    packageimg
  • Zenner_Diod_Based_arrow_com_二极管数据

    2026年1月27日 30 165 135

    数据集概述 本数据集包含从arrow.com网站爬取的各类Zenner二极管相关数据,为研究Zenner二极管淘汰情况提供支持。数据集仅包含一个文件,无目录结构,未进行训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:arrow_data.xlsx 文件格式:XLSX...
    packageimg
  • asgaardlab_GitHub_Based游戏开发者问答网站实证研究复现数据包

    2026年1月15日 30 31 13

    数据集概述 本数据集为论文《An Empirical Study of Q&A Websites for Game Developers》的复现数据包,包含研究所需的数据集与脚本。因部分平台内容涉及知识产权,仅提供相关帖子URL;Stack Overflow类数据可通过Stack Exchange数据...
    packageimg
  • GitHub_Actions_Based_GitHub仓库测试质量与CI_CD实践分析数据

    2026年1月13日 30 196 68

    数据集概述 本数据集围绕GitHub仓库测试质量评估展开,通过对比分析使用GitHub Actions的CI/CD实践,提供相关实验数据与处理文件,包含原始数据、分析结果等内容,助力研究GitHub仓库测试质量与CI/CD实践的关联。 文件详解 AnaliseDadosTestSmells.zip:ZIP格式,包含测试异味相关数据分析文件...
    packageimg
  • SonarQube问题对开发速度影响的回顾性队列研究复现包

    2025年12月18日 30 68 64

    数据集概述 本数据集为复现包,包含研究SonarQube问题对开发速度影响的回顾性队列研究所需的全部Python与R源代码,涵盖数据收集、预处理及分析流程,支持研究结果的复现验证。 文件详解 安装说明文件: INSTALL: 无指定格式,含工具安装说明及Python依赖要求 图表文件(Figures目录):...
    packageimg
  • 美国鱼类及野生动物管理局文献档案_书籍章节

    2025年12月11日 30 188 110

    数据集概述 该数据集为美国鱼类及野生动物管理局(FWS)Servcat系统中的文献档案,聚焦书籍章节类文件。数据通过爬取Servcat系统获取,包含与美国鱼类和野生动物资源管理相关的报告、备忘录等材料,以压缩包形式存储。 文件详解 文件名称:Book_Chapter.zip 文件格式:ZIP压缩包(.zip) 内容说明:包含从FWS...
    packageimg
  • 钟表品牌网站页面深度抓取数据集WatchBrandWebsitePageDepth-jackykutszkin

    2025年4月30日 30 160 39

    钟表品牌网站页面深度抓取数据集WatchBrandWebsitePageDepth-jackykutszkin 数据来源:互联网公开数据 标签:钟表, 品牌, 网站抓取, 页面深度, 数据爬取, 结构化数据, 市场分析, 品牌研究 数据概述: 该数据集包含来自钟表品牌网站的数据,记录了钟表品牌及其对应的网站页面深度信息。主要特征如下:...
    packageimg
  • 汽车销售数据爬取与分析数据集ParsingAuto-Ru01-12-2021Dataset-arsenbandarenka

    2025年4月25日 30 122 103

    汽车销售数据爬取与分析数据集ParsingAuto-Ru01-12-2021Dataset-arsenbandarenka 数据来源:互联网公开数据 标签:汽车销售,数据集,市场分析,数据爬取,机器学习,商业智能,时间序列,销售预测 数据概述: 该数据集包含来自俄罗斯最大汽车销售网站Auto-...
    packageimg
  • 阿根廷租赁市场数据集

    2025年4月24日 30 200 44

    阿根廷租赁市场数据集 数据来源:互联网公开数据 标签:租赁市场,阿根廷,房地产,数据爬取,数据清洗,时间序列,市场分析 数据概述: 本数据集通过自动化网络爬虫技术从互联网公开数据源中收集,记录了阿根廷租赁市场的历史数据。数据集涵盖了阿根廷多个城市的租赁房源信息,包括租金价格、房源类型、地理位置、房屋面积、设施配置等关键字段。数据经过标准化处理后存储为...
    packageimg
  • 尼泊尔股票交易所数据集

    2025年4月23日 30 89 60

    尼泊尔股票交易所数据集 数据来源:互联网公开数据 标签:股票数据, 尼泊尔, 股票市场, 时间序列, 股票价格, 金融分析, 数据爬取 数据概述 本数据集包含了尼泊尔股票交易所(NEPSE)上市股票的股价及其他详细信息,数据按日期和股票代码进行分类整理。数据来源于尼泊尔股票交易所的官方网站,通过网络爬虫技术提取。数据涵盖了以下主要内容: 1....
    packageimg
  • 登山项目路线与论坛数据集

    2025年4月20日 30 194 124

    登山项目路线与论坛数据集 数据来源:互联网公开数据 标签:登山项目,爬山路线,论坛讨论,品牌评价,情感分析,自然语言处理,数据爬取 数据概述: 本数据集来源于对MountainProject.com和Trailspace.com网站的公开数据爬取,包含以下五个部分:...
    packageimg
  • Copypastadb网站复制文本数据抓取数据集

    2025年4月20日 30 92 70

    Copypastadb网站复制文本数据抓取数据集 数据来源:互联网公开数据 标签:复制文本,数据库,文本数据,网络抓取,数据分析,社交媒体,互联网文化,数据爬取 数据概述: 本数据集包含了Copypastadb网站上收集的所有复制文本数据,以CSV格式提供。数据主要由两个文件构成: * data.csv:包含了所有复制文本及其标题。 *...
    packageimg
  • 塔斯尼姆新闻数据集

    2025年4月19日 30 39 22

    塔斯尼姆新闻数据集 数据来源:互联网公开数据 标签:新闻分类,文本分类,媒体分析,自然语言处理,数据爬取 数据概述: 本数据集是从Tasnim新闻网站爬取的公开新闻数据,涵盖了多个类别的新闻内容。数据集旨在提供一个均衡分布的多类别新闻数据集,适用于文本分类任务。 数据用途概述:...
    packageimg
  • 不列颠哥伦比亚省Craigslist汽车数据集

    2025年4月18日 30 97 85

    不列颠哥伦比亚省Craigslist汽车数据集 数据来源:互联网公开数据 标签:二手车市场,加拿大,不列颠哥伦比亚省,汽车,价格分析,地理位置,数据爬取 数据概述:...
    packageimg
  • 印度初创企业信息爬取数据集-初创企业信息-印度-2024年

    2025年4月15日 30 178 80

    印度初创企业信息爬取数据集-初创企业信息-印度-2024年 数据来源:互联网公开数据 标签:初创企业,印度,创业,商业,行业,地理位置,网站,数据爬取 数据概述:...
    packageimg
  • 旅游胜地探索数据集

    2025年4月14日 30 10 3

    旅游胜地探索数据集 数据来源:互联网公开数据 标签:旅游,胜地推荐,评分,最佳访问时间,文本预处理,数据爬取,Holidify,亚洲旅游 数据概述:...
    packageimg
  • 数据2017年科技博客文章标题数据分析数据集-TechCrunch与VentureBeat

    2025年4月14日 30 124 53

    数据2017年科技博客文章标题数据分析数据集-TechCrunch与VentureBeat 数据来源:互联网公开数据 标签:科技新闻,媒体分析,文本挖掘,趋势分析,TechCrunch,VentureBeat,创业公司,行业动态,关键词分析,数据爬取 数据概述:...
    packageimg