数据集概述
本数据集包含分析和预测全球生物多样性信息设施(GBIF)标本记录趋势的代码与数据,覆盖脊索动物门、节肢动物门和植物界三大类群。内容包括数据清洗、异常检测、主分析及基于历史快照的预测,对应论文《Global Sampling Decline Erodes Science Potential of Natural History Collections》的研究,支持生物多样性采样趋势相关分析。
文件详解
- 代码文件
- 文件名称:
1_DataCleaning_Forbes-et-al_2025.qmd、2_PrimaryAnalyses_Forbes-et-al_2025.qmd、3_SnapshotsForecasting_Forbes-et-al_2025.qmd
- 文件格式:QMD
- 字段映射介绍:分别对应数据清洗与异常检测、主分析与可视化、历史快照分析与预测的分析流程
- 原始数据文件
- 文件名称:
GBIF_snapshots.parquet、GBIF_integer_to_datasetKey.tsv
- 文件格式:PARQUET、TSV
- 字段映射介绍:包含GBIF历史快照原始数据及旧数据集ID与新datasetKey的映射关系
- 数据清洗输出文件
- 文件名称:
chordata_counts_to_highlight_030724、arthropoda_counts_to_highlight_OG_030724、plantae_counts_to_highlight_030724
- 文件格式:无明确格式(索引列表)
- 字段映射介绍:各分类群需过滤的异常数据集+年份索引列表
- 清洗后快照文件
- 文件名称:
plantae_snapshots_filter_threshold_IN_040924、arthropoda_snapshots_filter_threshold_IN_040924、chordata_snapshots_filter_threshold_IN_040924等
- 文件格式:无明确格式(清洗后数据集)
- 字段映射介绍:各分类群及合并的异常过滤后快照数据
- 分析输出文件
- 文件名称:
arthropoda_specimens_per_year_080724、chordata_continent_count_080724等
- 文件格式:无明确格式(分析结果)
- 字段映射介绍:各分类群年度标本数、物种数、网格计数、大陆特异性计数等分析结果
数据来源
论文“Global Sampling Decline Erodes Science Potential of Natural History Collections”及Global Biodiversity Information Facility(GBIF)
适用场景
- 生物多样性采样趋势分析: 利用历史快照与年度计数数据,研究全球生物多样性标本采样的变化趋势
- 分类群特异性研究: 分析脊索动物门、节肢动物门和植物界三大类群的标本记录差异与演变特征
- 异常检测应用: 基于数据清洗输出的异常索引,识别生物多样性标本记录中的异常数据点
- 生物多样性预测研究: 使用历史数据与预测模型,对未来生物多样性标本记录趋势进行预测
- 生物多样性科学潜力评估: 结合采样趋势数据,评估自然历史馆藏的科学潜力变化