亚马逊2024机器学习挑战图像特征提取数据集

亚马逊2024机器学习挑战图像特征提取数据集 数据来源:互联网公开数据 标签:机器学习,图像处理,特征提取,电商,健康医疗,内容审核,产品信息

数据概述: 本数据集用于亚马逊2024机器学习挑战赛,旨在创建一个能够从图像中提取实体值的机器学习模型。该数据集包含产品图像及其对应的关键实体信息,如重量、体积、电压、瓦数、尺寸等,适用于电商、健康医疗、内容审核等多个领域。数据集由训练集和测试集组成,训练集包含图像链接、产品类别、实体名称及实体值,测试集则不包含实体值,作为模型预测的目标变量。

数据用途概述: 该数据集适用于图像特征提取、产品信息识别、自动标签生成等多个应用场景。参赛者可以利用此数据集训练机器学习模型,实现从图像中自动提取关键信息的功能。此外,该数据集还可以用于评估模型的预测准确性,通过F1分数作为评价指标。

举例: 数据集包括以下关键字段: - index: 数据样本的唯一标识符。 - image_link: 产品图像的公共下载链接。 - group_id: 产品类别代码。 - entity_name: 产品实体名称,例如“item_weight”。 - entity_value: 产品实体值,例如“34 gram”。

输出格式要求: 输出文件应为CSV格式,包含以下两列: - index: 数据样本的唯一标识符,需与测试集记录索引一致。 - prediction: 预测结果,格式为“x unit”,其中x为浮点数,unit为允许的单位(详见附录)。

示例: 有效的预测格式包括“2 gram”、“12.5 centimetre”、“2.56 ounce”等。 无效的预测格式包括“2 gms”、“60 ounce/1.7 kilogram”、“2.2e2 kilogram”等。

注意事项: - 确保输出文件中的预测数量与测试集一致,否则将不予评估。 - 如果图像中未找到对应值,应返回空字符串。 - 使用src/utils.py中的download_images函数下载图像。 - 使用src/constants.py中的常量文件确认允许的单位。 - 通过src/sanity.py检查输出文件格式是否正确。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 9.28 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。