个人身份信息检测数据集-200k记录2023-mandrilator

个人身份信息检测数据集-200k记录2023-mandrilator 数据来源:互联网公开数据 标签:个人身份信息,数据检测,隐私保护,匿名化,竞赛数据 数据概述: 本数据集是ai4privacy/pii-masking-200k的改编版本,包含20万条记录,旨在用于个人身份信息(PII)检测竞赛。数据集经过处理,标注了不同类型的个人身份信息,便于参赛者进行训练和测试。 数据集包括以下字段: ID_NUM:各类身份号码信息,如账户号码、BIC、比特币地址、信用卡CVV、信用卡号、以太坊地址、IBAN、IPv4地址、IP地址、莱特币地址、MAC地址、隐藏号码、手机IMEI、PIN码、社会安全号和车辆识别码。 PHONE_NUM:电话号码及其前缀。 EMAIL:电子邮件地址。 USERNAME:用户名。 NAME_STUDENT:个人姓名信息,包括名、姓和中间名。 STREET_ADDRESS:地址信息,包括次地址、州、街道和邮政编码。 URL_PERSONAL:个人网址。 O:其他未分类信息。 数据用途概述: 该数据集适用于个人身份信息检测竞赛、隐私保护研究、数据匿名化技术开发和教育场景。研究人员和开发者可以利用此数据集训练和测试PII检测模型,提高数据保护能力;教育机构可以将其用于教学和实践,帮助学生理解隐私保护的重要性及其技术实现。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 17.19 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。