找到2个数据集

标签: 相似度阈值

过滤结果
  • GitHub_Source_公共代码仓库相似分组数据集_2016

    2026年1月28日 30 68 39

    数据集概述 本数据集包含2016年10月的公共GitHub仓库相似分组数据,采用加权Jaccard相似度(阈值0.8~0.9)将高度相似的仓库分为多个组。数据格式为JSON,整体结构为列表嵌套列表,每个内层列表对应一组相似仓库。 文件详解 文件名称:github_duplicates.json 文件格式:JSON...
    packageimg
  • MCZ_ENT_波士顿哈佛比较动物学博物馆六足动物标本标签图像数据集

    2026年1月23日 30 163 21

    数据集概述 本数据集包含哈佛比较动物学博物馆(MCZ)六足动物标本标签的一千五百九十六张高清JPEG图像,均带多标签注释。还包括基于Google Cloud Vision API生成的OCR文本文件,以及通过K-Medoids算法(相似度阈值0.9)聚类的标签分组文件,支持昆虫学、生物多样性信息学及计算机视觉研究。 文件详解 核心图像相关文件...
    packageimg