亚马逊2024机器学习挑战图像特征提取数据集
数据来源:互联网公开数据
标签:机器学习,图像处理,特征提取,电商,健康医疗,内容审核,产品信息
数据概述:
本数据集用于亚马逊2024机器学习挑战赛,旨在创建一个能够从图像中提取实体值的机器学习模型。该数据集包含产品图像及其对应的关键实体信息,如重量、体积、电压、瓦数、尺寸等,适用于电商、健康医疗、内容审核等多个领域。数据集由训练集和测试集组成,训练集包含图像链接、产品类别、实体名称及实体值,测试集则不包含实体值,作为模型预测的目标变量。
数据用途概述:
该数据集适用于图像特征提取、产品信息识别、自动标签生成等多个应用场景。参赛者可以利用此数据集训练机器学习模型,实现从图像中自动提取关键信息的功能。此外,该数据集还可以用于评估模型的预测准确性,通过F1分数作为评价指标。
举例:
数据集包括以下关键字段:
- index: 数据样本的唯一标识符。
- image_link: 产品图像的公共下载链接。
- group_id: 产品类别代码。
- entity_name: 产品实体名称,例如“item_weight”。
- entity_value: 产品实体值,例如“34 gram”。
输出格式要求:
输出文件应为CSV格式,包含以下两列:
- index: 数据样本的唯一标识符,需与测试集记录索引一致。
- prediction: 预测结果,格式为“x unit”,其中x为浮点数,unit为允许的单位(详见附录)。
示例:
有效的预测格式包括“2 gram”、“12.5 centimetre”、“2.56 ounce”等。
无效的预测格式包括“2 gms”、“60 ounce/1.7 kilogram”、“2.2e2 kilogram”等。
注意事项:
- 确保输出文件中的预测数量与测试集一致,否则将不予评估。
- 如果图像中未找到对应值,应返回空字符串。
- 使用src/utils.py中的download_images函数下载图像。
- 使用src/constants.py中的常量文件确认允许的单位。
- 通过src/sanity.py检查输出文件格式是否正确。