个人身份信息检测与移除教育数据集-2023-valentinwerner
数据来源:互联网公开数据
标签:个人身份信息,教育数据,数据检测,数据清理,机器学习模型,实验数据
数据概述:
本数据集由作者在参加“pii-detection-removal-from-educational-data”竞赛时创建。经过近一周的测试后,作者放弃了进一步优化(受沉没成本谬误影响),提交了初步成果。数据集包括两部分:一部分是标注较为完整的数据(working_half.json),另一部分存在至少一个缺失的实体标签。
数据生成过程中,作者采取了多样性和混沌性的方法,使用了多种机器学习模型进行实体识别和生成,包括Mixtral 8x7b、Mistral 7b-instruct-v0.2、Neural-Chat-7b-v3等,并尝试了Llama 2 - 13B模型。由于模型的局限性,部分实体未被识别,或在生成过程中未被包含。此外,模型倾向于生成像“123456789”或“Author1”这样的占位符,这些应进一步增强。
数据用途概述:
该数据集适用于个人身份信息(PII)检测与移除的研究和应用。研究者可以利用此数据集评估不同模型在识别和清除教育数据中PII方面的表现;教育机构可使用此数据集进行数据保护和隐私管理培训;开发人员可以借此改进PII检测算法,提高数据安全性。尽管数据集存在一些标注不完整的问题,但它仍然为相关领域的研究提供了有价值的起点。