GitHub_Based数据质量评估研究复制包_2014

数据集概述

本数据集是EASE 2014论文《Data Quality Assessment in the Wild: Findings from GitHub》的复制包,包含研究中使用的全部数据文件与代码文件,总计五个文件,覆盖GitHub数据质量评估的核心分析内容与工具支持。

文件详解

  • 数据文件(共3个,格式均为.xlsx)
  • Data_RQ1toRQ3.xlsx:用于论文研究问题1至3的分析数据
  • Data_RQ4.xlsx:用于论文研究问题4的分析数据
  • DataQualityToolsList.xlsx:数据质量工具清单数据
  • 代码文件(共2个,格式均为.ipynb)
  • GitHub_web_scraper.ipynb:GitHub网页数据爬取代码
  • GitHub_repo_miner.ipynb:GitHub仓库数据挖掘代码

数据来源

EASE 2014论文《Data Quality Assessment in the Wild: Findings from GitHub》

适用场景

  • 数据质量评估研究:支持对GitHub开源数据质量特征的复现分析与验证
  • 开源数据挖掘实践:参考GitHub仓库数据挖掘与网页爬取的代码实现逻辑
  • 数据质量工具研究:基于数据质量工具清单分析行业工具应用现状
  • 学术研究复现:助力相关领域研究者复现论文实验结果与拓展研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.45 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。