数据集概述
本数据集是ENCB标本馆数字化项目第四阶段的成果,包含松科及木兰纲不同科植物标本的采集者、鉴定者关联数据。数据由志愿者通过Bionomia平台标注,基于GBIF聚合的标本数据集,采用Frictionless Data数据包格式,共9个文件,支持植物标本相关的生物多样性研究。
文件详解
- 核心数据文件
- 文件名:occurrences.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射:包含植物标本的基础信息,如采集记录、鉴定记录等核心标本数据
- 关联信息文件
- 文件名:attributions.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射:记录采集者、鉴定者与标本数据的关联归属信息
- 问题数据文件
- 文件名:problem_collector_dates.csv.zip、problem_determiner_dates.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射:存储采集者、鉴定者日期信息存在问题的记录
- 其他辅助文件
- 文件名:citations.csv.zip、articles.csv.zip、not_them_assertions.csv.zip、users.csv.zip
- 文件格式:CSV(压缩包)
- 字段映射:包含引用、文献、排除断言、用户信息等辅助数据
- 数据包描述文件
- 文件名:datapackage.json
- 文件格式:JSON
- 字段映射:Frictionless Data数据包的元数据描述文件,定义数据集结构、字段等信息
数据来源
Bionomia平台志愿者标注数据,基于Global Biodiversity Information Facility(GBIF)聚合的数据集(https://gbif.org/dataset/7fd2f6e2-f762-11e1-a439-00145eb45e9a)
适用场景
- 植物标本采集者/鉴定者关联研究:分析标本数据中采集者、鉴定者的贡献与关联模式
- 生物多样性标本数据质量评估:利用问题数据文件识别并改进标本日期等信息的准确性
- 植物分类学研究:基于松科及木兰纲植物标本数据开展分类学相关分析
- 标本馆数字化项目成果应用:为ENCB标本馆数字化项目的后续阶段提供数据支持
- 生物多样性信息学研究:探索Frictionless Data格式在标本数据管理中的应用