亚马逊手机数据集
数据来源:互联网公开数据
标签:亚马逊,手机,产品信息,价格,评价,技术规格,品牌,操作系统,RAM,存储,屏幕尺寸,5G,机器学习,数据清理
数据概述:
本数据集包含了在亚马逊网站上列出的各种手机的详细信息,数据通过Selenium和BeautifulSoup进行抓取。数据集包括手机的名称、价格、评分、规格(如RAM、存储、屏幕尺寸等)以及其他元数据(如评分数量、折扣百分比)。数据集旨在为手机市场的特性、价格趋势和用户反馈提供深入见解。
数据用途概述:
该数据集适用于产品比较、趋势分析、机器学习建模和探索性数据分析等多种场景。用户可以比较不同品牌和型号手机的价格、RAM、存储等特性;分析价格趋势、折扣模式和用户偏好;构建用于预测价格趋势、评分或销售量的机器学习模型;同时也可以通过探索性数据分析发现市场中的模式、异常值和有价值的信息。
举例:
- 产品比较:通过比较不同手机的品牌、型号、价格、RAM、存储等特性,为消费者提供选购建议。
- 趋势分析:分析手机价格趋势、折扣模式和用户评价,帮助企业制定市场策略。
- 机器学习:利用数据构建预测模型,预测手机价格趋势、用户评分或销售量。
- 探索性数据分析(EDA):通过数据的可视化和统计分析发现市场中的潜在规律和异常值。
数据字段:
- ID:每个产品的唯一标识符。
- 产品名称:手机的名称。
- 产品链接:指向亚马逊产品页面的URL。
- 图片链接:指向产品图片的URL。
- 价格(美元):手机的价格,单位为美元。
- 折扣百分比:如果有折扣,则计算原价与现价之间的差额百分比。
- 折扣前价格:如果有折扣,则显示原价。
- 评分(满分5分):从产品页面提取的客户评分。
- 评分数量:产品收到的总评分数量。
- 品牌:手机的品牌。
- 操作系统:手机的操作系统(例如:Android、iOS)。
- RAM(GB):手机的RAM大小,单位为GB。
- 存储(GB):手机的内部存储容量,单位为GB。
- 屏幕尺寸(英寸):手机的屏幕尺寸,单位为英寸。
- 蜂窝技术:手机支持的蜂窝技术(例如:4G、5G)。
- CPU:手机的CPU速度。
- CPU型号:手机使用的CPU型号。
- 可用颜色:手机可用的颜色选项。
数据清理:
数据集已经进行了清理,包括去除重复项和标准化数据条目。尽可能地处理了缺失值,同时将单位(如RAM、存储)进行了统一。
限制:
- 动态内容:由于亚马逊网站上的价格、评分和可用性可能会随时间变化,因此该数据集仅代表抓取时的快照。