亚马逊机器学习挑战赛2024图像特征提取数据集

亚马逊机器学习挑战赛2024图像特征提取数据集 数据来源:互联网公开数据 标签:亚马逊挑战赛,图像特征提取,机器学习,产品信息,电子商务,健康医疗,内容审核 数据概述: 本数据集用于2024年亚马逊机器学习挑战赛,旨在创建一个从图像中提取实体值的机器学习模型。数据集包含产品图像的URL链接、产品类别代码、实体名称及其对应的实体值。训练集提供完整的标签信息,用于模型训练;测试集则缺少实体值,作为模型预测的目标变量。 数据用途概述: 该数据集适用于需要从图像中自动提取关键产品信息的场景,如电子商务平台的产品信息补充、健康医疗领域的图像分析以及内容审核等。通过分析图像中的尺寸、重量、电压、功率等信息,可以提高信息提取的效率和准确性。 举例: 数据集包含以下字段: index:数据样本的唯一标识符。 image_link:产品图像的公开URL链接。 group_id:产品的类别代码。 entity_name:产品的实体名称,例如“item_weight”。 entity_value:产品的实体值,例如“34 gram”。(测试集中不包含此字段,作为目标变量)

输出格式: 输出文件应为CSV格式,包含两列: index:数据样本的唯一标识符,需与测试记录的索引一致。 prediction:预测结果,格式为“x unit”,其中x为浮点数,unit为允许的单位之一。例如,“2 gram”,“12.5 centimetre”,“2.56 ounce”。

文件描述: 源文件包含以下内容: src/sanity.py:用于确保最终输出文件通过所有格式检查的脚本。 src/utils.py:包含用于从image_link下载图像的辅助函数。 src/constants.py:包含每种实体允许的单位。 sample_code.py:提供一个示例代码,用于生成指定格式的输出文件,使用可选。

数据集文件包含: train.csv:带标签的训练文件。 test.csv:无标签的测试文件,用于生成预测结果。 sample_test.csv:测试输入示例文件。 sample_test_out.csv:sample_test.csv的示例输出文件,用于参考输出格式。

约束条件: 输出文件需严格匹配sample_test_out.csv的格式,并通过sanity.py脚本的格式检查。 预测结果必须使用constants.py中列出的允许单位,否则预测结果将被视为无效。

评估标准: 提交结果将基于F1分数进行评估,F1分数是分类和提取问题的标准预测准确度度量。 通过比较预测值(OUT)和真实值(GT),将预测结果分类为真阳性、假阳性、假阴性和真阴性,进而计算Precision和Recall,最终得出F1分数。

提交文件: 在Portal中上传格式与sample_test_out.csv完全一致的test_out.csv文件。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.75 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。