亚马逊时尚商品用户评价数据集2023-fawadhossaini1415
数据来源:互联网公开数据
标签:亚马逊,时尚,用户评价,情感分析,分类,图像分析,产品评价,购买验证
数据概述:
本数据集包含2023年由McAuley Lab收集的亚马逊时尚类别的80万条以上的用户评价。该数据集是一个宝贵资源,适用于进行情感分析。评价中的评分被分为三个类别:
- 评分1到2:负面(-1)
- 评分3:中性(0)
- 评分4到5:正面(1)
数据集中正面情感评价有346,924条,负面情感评价有346,924条,中性情感评价有173,462条。该数据集适合进行二分类分析,因为正面和负面情感的数量已经平衡。然而,对于三分类分析,需要使用欠采样或过采样技术平衡目标值。
数据集包括以下字段:
- Rating:评分,范围1.0到5.0
- title:用户评价的标题
- text:用户评价的正文
- images:用户在收到产品后发布的图片。每张图片有小、中、大三种尺寸,分别由small_image_url、medium_image_url和large_image_url表示
- asin:产品的ID
- parent_asin:产品的父ID。注意:不同颜色、款式、尺寸的产品通常属于同一个父ID。之前亚马逊数据集中的“asin”实际上是父ID。请使用父ID查找产品元数据
- user_id:评价者的ID
- timestamp:评价时间(Unix时间)
- helpful_vote:评价的有用投票数
- verified_purchase:用户购买验证
- target:文本评价的标签,其中正面(1)、负面(-1)和中性(0)代表相关情感
数据集DOI:https://doi.org/10.48550/arXiv.2403.03952
引用文章:Hou等人(2024)提出了一种桥接语言和项目以进行检索和推荐的方法
数据用途概述:
该数据集适用于多种研究和分析场景,包括情感分析、二分类和三分类任务、用户画像构建、产品推荐系统开发等。研究人员可以利用此数据进行情感分析和分类任务的训练和评估;企业可以利用此数据进行市场调研和产品改进;教育机构可以利用此数据进行数据科学和机器学习的教学和实践。