亚马逊2024黑客松产品信息图像提取数据集-abhinavmangalore

亚马逊2024黑客松产品信息图像提取数据集-abhinavmangalore 数据来源:互联网公开数据 标签:亚马逊,黑客松,机器学习,图像处理,实体提取,产品信息,电商,医疗,内容审核

数据概述: 本数据集用于亚马逊2024黑客松任务,旨在开发从产品图像中提取关键产品信息(如重量、体积、电压、瓦特和尺寸等)的机器学习模型。数据集包括训练集和测试集,主要字段如下:

index:每个数据样本的唯一标识符。 image_link:产品图像的下载链接。 group_id:产品类别代码。 entity_name:产品实体名称(例如,“item_weight”)。 entity_value:对应实体的值(例如,“34 gram”)。注意:此字段在测试集中不可用,因为它是目标变量。

数据用途概述: 该数据集适用于电商、医疗和内容审核等行业,主要用途包括产品信息自动化提取、图像数据处理和机器学习模型开发。通过训练和测试模型,用户可以实现从图像中自动识别和提取关键产品信息,提高数据处理效率和准确性。此外,该数据集也可用于教学和研究目的,帮助学习者理解和掌握图像处理和机器学习的基本原理。

文件描述: - amazon_sanity.py:用于确保输出文件格式正确的脚本。 - amazon_utils.py:包含用于下载图像的辅助函数。 - amazon_constants.py:包含每个实体类型的允许单位。 - sample_code.py:生成正确格式输出文件的示例代码。 - train.csv:包含标签(entity_value)的训练文件。 - test.csv:需要预测的测试文件(缺少entity_value)。 - sample_test.csv:示例输入测试文件。 - sample_test_out.csv:正确格式的示例输出文件。

提交要求: - 输出文件应命名为test_out.csv,格式与sample_test_out.csv一致。 - 预测结果应遵循指定格式:数值后跟单位(例如,“2 gram”)。 - 允许的单位参见附录。 - 输出文件必须通过amazon_sanity.py的格式检查,输出“Parsing successful for file: ...csv”。

附录:允许单位 - 宽度, 深度, 高度:厘米, 英尺, 毫米, 米, 英寸, 码 - 项目重量, 最大重量推荐值:毫克, 千克, 微克, 克, 盎司, 吨, 磅 - 电压:毫伏, 千伏, 伏 - 瓦特:千瓦, 瓦 - 项目体积:立方英尺, 微升, 杯, 流体盎司, 厘升, 帝制加仑, 品脱, 分升, 升, 毫升, 夸脱, 立方英寸, 加仑

评估标准: 提交结果将使用F1分数进行评估。分类逻辑如下:

  • 真正例(True Positives):预测值和真实值均非空且匹配。
  • 假正例(False Positives):预测值非空但与真实值不匹配,或真实值为空。
  • 假负例(False Negatives):预测值为空但真实值非空。
  • 真负例(True Negatives):预测值和真实值均为空。

F1分数计算公式: F1 = 2 * (Precision * Recall) / (Precision + Recall) 其中: - 精确率(Precision)= 真正例 / (真正例 + 假正例) - 召回率(Recall)= 真正例 / (真正例 + 假负例)

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.93 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。