亚马逊2024黑客松产品信息图像提取数据集-abhinavmangalore
数据来源:互联网公开数据
标签:亚马逊,黑客松,机器学习,图像处理,实体提取,产品信息,电商,医疗,内容审核
数据概述:
本数据集用于亚马逊2024黑客松任务,旨在开发从产品图像中提取关键产品信息(如重量、体积、电压、瓦特和尺寸等)的机器学习模型。数据集包括训练集和测试集,主要字段如下:
index:每个数据样本的唯一标识符。
image_link:产品图像的下载链接。
group_id:产品类别代码。
entity_name:产品实体名称(例如,“item_weight”)。
entity_value:对应实体的值(例如,“34 gram”)。注意:此字段在测试集中不可用,因为它是目标变量。
数据用途概述:
该数据集适用于电商、医疗和内容审核等行业,主要用途包括产品信息自动化提取、图像数据处理和机器学习模型开发。通过训练和测试模型,用户可以实现从图像中自动识别和提取关键产品信息,提高数据处理效率和准确性。此外,该数据集也可用于教学和研究目的,帮助学习者理解和掌握图像处理和机器学习的基本原理。
文件描述:
- amazon_sanity.py:用于确保输出文件格式正确的脚本。
- amazon_utils.py:包含用于下载图像的辅助函数。
- amazon_constants.py:包含每个实体类型的允许单位。
- sample_code.py:生成正确格式输出文件的示例代码。
- train.csv:包含标签(entity_value)的训练文件。
- test.csv:需要预测的测试文件(缺少entity_value)。
- sample_test.csv:示例输入测试文件。
- sample_test_out.csv:正确格式的示例输出文件。
提交要求:
- 输出文件应命名为test_out.csv,格式与sample_test_out.csv一致。
- 预测结果应遵循指定格式:数值后跟单位(例如,“2 gram”)。
- 允许的单位参见附录。
- 输出文件必须通过amazon_sanity.py的格式检查,输出“Parsing successful for file: ...csv”。
附录:允许单位
- 宽度, 深度, 高度:厘米, 英尺, 毫米, 米, 英寸, 码
- 项目重量, 最大重量推荐值:毫克, 千克, 微克, 克, 盎司, 吨, 磅
- 电压:毫伏, 千伏, 伏
- 瓦特:千瓦, 瓦
- 项目体积:立方英尺, 微升, 杯, 流体盎司, 厘升, 帝制加仑, 品脱, 分升, 升, 毫升, 夸脱, 立方英寸, 加仑
评估标准:
提交结果将使用F1分数进行评估。分类逻辑如下:
- 真正例(True Positives):预测值和真实值均非空且匹配。
- 假正例(False Positives):预测值非空但与真实值不匹配,或真实值为空。
- 假负例(False Negatives):预测值为空但真实值非空。
- 真负例(True Negatives):预测值和真实值均为空。
F1分数计算公式:
F1 = 2 * (Precision * Recall) / (Precision + Recall)
其中:
- 精确率(Precision)= 真正例 / (真正例 + 假正例)
- 召回率(Recall)= 真正例 / (真正例 + 假负例)