数据集

亚马逊2024机器学习挑战图像特征提取数据集

亚马逊2024机器学习挑战图像特征提取数据集数据来源：互联网公开数据标签：机器学习,图像处理,特征提取,电商,健康医疗,内容审核,产品信息

数据概述：本数据集用于亚马逊2024机器学习挑战赛，旨在创建一个能够从图像中提取实体值的机器学习模型。该数据集包含产品图像及其对应的关键实体信息，如重量、体积、电压、瓦数、尺寸等，适用于电商、健康医疗、内容审核等多个领域。数据集由训练集和测试集组成，训练集包含图像链接、产品类别、实体名称及实体值，测试集则不包含实体值，作为模型预测的目标变量。

数据用途概述：该数据集适用于图像特征提取、产品信息识别、自动标签生成等多个应用场景。参赛者可以利用此数据集训练机器学习模型，实现从图像中自动提取关键信息的功能。此外，该数据集还可以用于评估模型的预测准确性，通过F1分数作为评价指标。

举例：数据集包括以下关键字段： - index: 数据样本的唯一标识符。 - image_link: 产品图像的公共下载链接。 - group_id: 产品类别代码。 - entity_name: 产品实体名称，例如“item_weight”。 - entity_value: 产品实体值，例如“34 gram”。

输出格式要求：输出文件应为CSV格式，包含以下两列： - index: 数据样本的唯一标识符，需与测试集记录索引一致。 - prediction: 预测结果，格式为“x unit”，其中x为浮点数，unit为允许的单位（详见附录）。

示例：有效的预测格式包括“2 gram”、“12.5 centimetre”、“2.56 ounce”等。无效的预测格式包括“2 gms”、“60 ounce/1.7 kilogram”、“2.2e2 kilogram”等。

注意事项： - 确保输出文件中的预测数量与测试集一致，否则将不予评估。 - 如果图像中未找到对应值，应返回空字符串。 - 使用src/utils.py中的download_images函数下载图像。 - 使用src/constants.py中的常量文件确认允许的单位。 - 通过src/sanity.py检查输出文件格式是否正确。

数据与资源

亚马逊2024机器学习挑战图像特征提取数据集.zipZIP
9.28 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	9.28 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

亚马逊2024机器学习挑战图像特征提取数据集

数据与资源

附加信息

注册成功！