合成大数据集异常检测

合成大数据集异常检测 数据来源:互联网公开数据
标签:异常检测,合成数据,收入分析,职业信息,质量保证,数据清洗,机器学习,算法评估

数据概述:
本数据集包含200万行记录,设计用于收入和职业信息在不同国家背景下的质量异常检测。数据集包含9个字段,涵盖姓名、年龄、性别、邮箱、收入、国家、城市、职位名称和职位领域等关键信息。数据集中的异常分布具有代表性,包括8000条缺失值记录、11800条不准确值记录、6000条不符合格式的记录、1000条重复且不一致的记录,以及4000条拼写错误的记录。数据集通过合成方式引入多样化的质量问题,为异常检测和数据质量评估提供了丰富的研究场景。

数据用途概述:
该数据集适用于异常检测算法的评估与优化、数据质量保证任务的研究、数据清洗策略的开发等多种场景。研究人员可以利用数据集评估不同算法在复杂异常环境中的性能表现;企业可将其用于数据治理和质量控制流程的优化;机器学习从业者可将其作为基准数据集,用于训练和验证异常检测模型的有效性。此外,数据集还为数据质量研究提供了标准化的实验环境,帮助研究者探索更高效的异常识别和处理方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 70.05 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。