数据集

AI4Privacy个人身份信息PII掩蔽数据集-200K样本

AI4Privacy个人身份信息PII掩蔽数据集-200K样本数据来源：互联网公开数据标签：AI4Privacy, PII, 个人身份信息, 数据掩蔽, 隐私保护, 自然语言处理, 人工智能, 合成数据, 多语言, Hugging Face

数据概述：本数据集由 AI4Privacy 开发，是隐私保护与人工智能领域的一项开创性工作。该数据集托管于 Hugging Face 平台 (ai4privacy/pii-masking-200k)，旨在应对人工智能应用中个人数据安全日益增长的担忧。数据集由专有算法生成，确保创建的合成数据不会侵犯隐私。它包含多语言文本，包括英语、法语、德语和意大利语，体现了多样化的来源。数据经过精心策划，并结合了人工验证，保证了相关性和质量。本数据集旨在训练人工智能模型，以识别和掩蔽个人身份信息 (PII)。它涵盖了 54 个 PII 类别，并应用于 229 个不同领域（如商业、教育、心理学和法律）的用例，强调其上下文丰富性和适用性。

数据用途概述：该数据集可用于训练人工智能模型，以识别和掩蔽个人身份信息 (PII)。这对于保护用户隐私至关重要，尤其是在大型语言模型 (LLM) 和人工智能助手等应用中。研究人员和开发人员可以利用此数据集来开发和评估 PII 检测和掩蔽技术。此外，该数据集还可用于教育和培训，以提高人们对数据隐私的认识，并促进对负责任的 AI 开发的理解。

数据与资源

AI4Privacy个人身份信息PII掩蔽数据集-200K样本.zipZIP
105.81 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	105.81 MiB
最后更新	2025年4月17日
创建于	2025年4月17日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

AI4Privacy个人身份信息PII掩蔽数据集-200K样本

数据与资源

附加信息

注册成功！