MCZ_ENT_波士顿哈佛比较动物学博物馆六足动物标本标签图像数据集

数据集概述

本数据集包含哈佛比较动物学博物馆(MCZ)六足动物标本标签的一千五百九十六张高清JPEG图像,均带多标签注释。还包括基于Google Cloud Vision API生成的OCR文本文件,以及通过K-Medoids算法(相似度阈值0.9)聚类的标签分组文件,支持昆虫学、生物多样性信息学及计算机视觉研究。

文件详解

  • 核心图像相关文件
  • 文件名称:MCZ_ENT_Boston.csv
  • 文件格式:CSV
  • 字段映射介绍:包含GUID(标本唯一标识符)、IIIF(图像资源链接)、MEDIA_URI(标本图像访问链接)字段
  • OCR文本文件
  • 文件名称:OCR_MCZ_ENT_Boston.json
  • 文件格式:JSON
  • 字段映射介绍:通过Google Cloud Vision API生成的标本标签机器转录文本,支持自动化内容提取与文本挖掘
  • 聚类分组文件
  • 文件名称:Clustering_0.9_MCZ_ENT_Boston.csv
  • 文件格式:CSV
  • 字段映射介绍:包含ID(图像文件标识)、Cluster_ID(聚类分组ID)、Transcript(OCR转录文本)字段,基于文本相似度聚类结果

数据来源

Harvard University Museum of Comparative Zoology

适用场景

  • 昆虫学标本数字化管理:用于六足动物标本标签信息的数字化存储与检索
  • 生物多样性信息学研究:通过OCR文本挖掘标本采集历史、地理分布等生物多样性数据
  • 计算机视觉模型训练:利用高清标签图像及OCR数据,训练标本标签文本识别模型
  • 标本标签聚类分析:基于聚类结果开展重复标签检测、标本记录关联研究
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。