USNM_COL_CAM_Computer_Vision_Based甲虫标本标签多源数据集

数据集概述

本数据集包含史密森尼国家自然历史博物馆提供的912张高分辨率甲虫标本标签JPEG图像,涵盖6个鞘翅目科,标注有多标签信息。辅以OCR文本转录JSON文件和基于文本相似度的聚类CSV文件,支持鞘翅目研究、生物多样性信息学及计算机视觉相关应用。

文件详解

  • 主数据文件
  • 文件名称:USNM_CURC_CAM.csv
  • 文件格式:CSV
  • 字段映射介绍:包含filename(文件名)、permalink(标本图像永久链接)字段,记录标本标签图像的存储路径与访问地址
  • OCR转录文件
  • 文件名称:OCR_USNM_COL_CAM.json
  • 文件格式:JSON
  • 字段映射介绍:存储通过Google Cloud Vision API生成的标签文本转录内容,支持自动文本提取与结构化元数据检索
  • 聚类结果文件
  • 文件名称:Clustering_0.9_USNM_COL_CAM.csv
  • 文件格式:CSV
  • 字段映射介绍:包含ID(标本标签图像ID)、Cluster_ID(聚类ID)、TranscriptOCR(OCR转录文本)字段,基于0.9文本相似度阈值的K-Medoids聚类输出

数据来源

史密森尼国家自然历史博物馆(Smithsonian National Museum of Natural History)

适用场景

  • 计算机视觉模型训练: 用于开发和优化标本标签图像的文本检测、识别与信息提取算法
  • 生物多样性数据标准化: 通过OCR转录与聚类结果,实现标本标签信息的结构化处理与重复记录识别
  • 鞘翅目分类学研究: 辅助整理不同科甲虫标本的采集信息,支持物种分布与历史采集规律分析
  • 大规模标本数据管理: 为博物馆标本标签的自动化处理、索引与检索提供技术支撑
  • 文本聚类算法验证: 基于标本标签文本的聚类结果,可用于评估生物分类学领域文本聚类方法的有效性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.47 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。