数据集概述
本数据集包含哈佛比较动物学博物馆(MCZ)六足动物标本标签的一千五百九十六张高清JPEG图像,均带多标签注释。还包括基于Google Cloud Vision API生成的OCR文本文件,以及通过K-Medoids算法(相似度阈值0.9)聚类的标签分组文件,支持昆虫学、生物多样性信息学及计算机视觉研究。
文件详解
- 核心图像相关文件
- 文件名称:
MCZ_ENT_Boston.csv
- 文件格式:CSV
- 字段映射介绍:包含GUID(标本唯一标识符)、IIIF(图像资源链接)、MEDIA_URI(标本图像访问链接)字段
- OCR文本文件
- 文件名称:
OCR_MCZ_ENT_Boston.json
- 文件格式:JSON
- 字段映射介绍:通过Google Cloud Vision API生成的标本标签机器转录文本,支持自动化内容提取与文本挖掘
- 聚类分组文件
- 文件名称:
Clustering_0.9_MCZ_ENT_Boston.csv
- 文件格式:CSV
- 字段映射介绍:包含ID(图像文件标识)、Cluster_ID(聚类分组ID)、Transcript(OCR转录文本)字段,基于文本相似度聚类结果
数据来源
Harvard University Museum of Comparative Zoology
适用场景
- 昆虫学标本数字化管理:用于六足动物标本标签信息的数字化存储与检索
- 生物多样性信息学研究:通过OCR文本挖掘标本采集历史、地理分布等生物多样性数据
- 计算机视觉模型训练:利用高清标签图像及OCR数据,训练标本标签文本识别模型
- 标本标签聚类分析:基于聚类结果开展重复标签检测、标本记录关联研究