数据集

亚马逊机器学习黑客松2024图像特征提取数据集-keshavjoshi22

亚马逊机器学习黑客松2024图像特征提取数据集-keshavjoshi22 数据来源：互联网公开数据标签：亚马逊,机器学习,图像处理,特征提取,产品信息,电商,健康医疗,内容审核

数据概述：本数据集用于亚马逊机器学习黑客松2024，旨在创建一个从图像中提取实体值的机器学习模型。该模型在健康医疗、电子商务和内容审核等领域具有重要应用价值，特别是在数字市场中许多产品缺乏详细文本描述的情况下，直接从图像中获取关键信息变得尤为重要。这些图像包含重量、体积、电压、瓦特、尺寸等多种关键信息，对于数字商店来说至关重要。

数据集包含以下字段：

index：数据样本的唯一标识符（ID）
image_link：产品图像的公共下载链接。例如：https://m.media-amazon.com/images/I/71XfHPR36-L.jpg。使用src/utils.py中的download_images函数下载图像，参考src/test.ipynb中的示例代码。
group_id：产品的类别代码
entity_name：产品实体名称。例如：“item_weight”
entity_value：产品实体值。例如：“34 gram”（注意：在test.csv中，entity_value列不存在，因为它是目标变量）

输出格式：输出文件应为一个包含两列的CSV文件：

index：数据样本的唯一标识符（ID），应与test.csv中的索引匹配。
prediction：格式为“x unit”的字符串，其中x是一个标准格式的浮点数，unit是允许的单位之一（允许的单位见附录）。两个值之间应有一个空格。例如：“2 gram”，“12.5 centimetre”，“2.56 ounce”为有效格式。无效格式示例：“2 gms”，“60 ounce/1.7 kilogram”，“2.2e2 kilogram”等。

注意事项：确保为所有索引输出预测值。如果对于任何测试样本在图像中未找到值，则返回空字符串，即“”。如果输出文件中的样本数量与test.csv中的数量不匹配，则输出结果将不予评估。

数据与资源

versions_20250410020941.zipZIP
6.40 MiB

下载
图像特征提取数据集_Image_Feature_Extraction_Dataset.zipZIP
311.53 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	317.93 MiB
最后更新	2025年8月13日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

亚马逊机器学习黑客松2024图像特征提取数据集-keshavjoshi22

数据与资源

附加信息

注册成功！