脏财务交易数据集

脏财务交易数据集 数据来源:互联网公开数据 标签:财务交易,数据清洗,数据预处理,数据质量,缺失值,无效数据,重复数据,异常值 数据概述: 本数据集模拟了一家虚构公司的交易记录,每行代表一笔交易。数据集包含多种数据质量问题,如缺失值、无效条目和重复行,非常适合用于练习数据清洗和预处理任务。数据集涵盖了交易ID、交易日期、客户ID、产品名称、数量、价格、支付方式和交易状态等关键字段。 数据用途概述: 该数据集适用于数据清洗和预处理练习、异常检测、数据质量和完整性检查等场景。研究人员可以通过清洗该数据集来掌握数据预处理技术,识别和解决数据中的各种问题。数据集也适合用于教育培训,帮助学习者理解数据清洗的重要性以及如何处理实际工作中遇到的数据质量问题。 字段定义: Transaction_ID (字符串):每笔交易的唯一标识符(例如:T0001, T0002, T0003)。部分值缺失,其他值可能包含特殊字符或格式不正确。 Transaction_Date (日期):交易日期,格式为YYYY-MM-DD。存在一些无效日期(例如:2023-13-01, 2025-02-30)和缺失值。 Customer_ID (字符串):客户的标识符(例如:C001, C002, C003)。存在缺失值和重复ID。 Product_Name (字符串):购买的产品名称(例如:“Laptop”, “Smartphone”, “Coffee Machine”)。部分产品名称拼写错误,其他名称缺失或包含多余空格。 Quantity (整数):交易中购买的产品数量。部分行包含负值或异常数量(例如:单个产品购买1000件)。 Price (浮点数):产品的价格,单位为美元。部分价格为负值或缺失,其他价格包含意外符号(例如:“$300”, “price”)。 Payment_Method (分类:字符串):交易使用的支付方式(例如:“Credit Card”, “Cash”, “PayPal”)。部分条目拼写错误或不属于预期类别。 Transaction_Status (分类:字符串):交易的状态(例如:“Completed”, “Pending”, “Failed”)。部分值不一致,例如使用“complete”代替“Completed”,或存在空值。 关键特征: • 缺失值:Transaction_Date、Customer_ID 和 Transaction_Status 列存在缺失值。 • 无效/错误数据:存在无效日期(例如:2023-13-01, 2025-02-30)和 Quantity 及 Price 的负值。部分行的价格包含符号或字母(例如:“$300” 和 “price”)。 • 重复数据:某些 Customer ID 和 Transaction ID 可能重复。 • 不一致数据:支付方式名称如 “Credit card” 不一致(大小写和间距问题),交易状态值如 “completed” 代替 “Completed”。 • 异常值:数据集中包含极端值,例如单笔交易购买1000件产品。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.75 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。