BPID_Based_个人身份去重基准数据集_EMNLP2024

数据集概述

本数据集为EMNLP 2024论文《BPID: A Benchmark for Personal Identity Deduplication》的配套基准数据,用于个人身份去重任务。数据集以压缩包形式提供,无训练/测试、数据/标签、原始/处理数据的划分,包含1个压缩文件。

文件详解

  • 文件名称:BPID.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含个人身份去重任务的基准数据,具体字段及内容需解压后查看,无README或内容预览信息。

数据来源

EMNLP 2024 publication titled BPID: A Benchmark for Personal Identity Deduplication

适用场景

  • 个人身份去重算法评估: 用于测试和比较不同身份去重模型的性能。
  • 自然语言处理基准研究: 作为身份去重任务的标准数据集,支持相关算法的研发与优化。
  • 数据整合与清洗研究: 探索个人身份信息的标准化与重复记录合并方法。
  • 信息检索与数据质量提升: 助力身份数据的精准匹配与冗余信息消除研究。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 55.42 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。