亚马逊机器学习黑客松2024图像特征提取数据集-keshavjoshi22
数据来源:互联网公开数据
标签:亚马逊,机器学习,图像处理,特征提取,产品信息,电商,健康医疗,内容审核
数据概述:
本数据集用于亚马逊机器学习黑客松2024,旨在创建一个从图像中提取实体值的机器学习模型。该模型在健康医疗、电子商务和内容审核等领域具有重要应用价值,特别是在数字市场中许多产品缺乏详细文本描述的情况下,直接从图像中获取关键信息变得尤为重要。这些图像包含重量、体积、电压、瓦特、尺寸等多种关键信息,对于数字商店来说至关重要。
数据集包含以下字段:
- index:数据样本的唯一标识符(ID)
- image_link:产品图像的公共下载链接。例如:https://m.media-amazon.com/images/I/71XfHPR36-L.jpg。使用src/utils.py中的download_images函数下载图像,参考src/test.ipynb中的示例代码。
- group_id:产品的类别代码
- entity_name:产品实体名称。例如:“item_weight”
- entity_value:产品实体值。例如:“34 gram”(注意:在test.csv中,entity_value列不存在,因为它是目标变量)
输出格式:
输出文件应为一个包含两列的CSV文件:
- index:数据样本的唯一标识符(ID),应与test.csv中的索引匹配。
- prediction:格式为“x unit”的字符串,其中x是一个标准格式的浮点数,unit是允许的单位之一(允许的单位见附录)。两个值之间应有一个空格。例如:“2 gram”,“12.5 centimetre”,“2.56 ounce”为有效格式。无效格式示例:“2 gms”,“60 ounce/1.7 kilogram”,“2.2e2 kilogram”等。
注意事项:
确保为所有索引输出预测值。如果对于任何测试样本在图像中未找到值,则返回空字符串,即“”。如果输出文件中的样本数量与test.csv中的数量不匹配,则输出结果将不予评估。