数据集

亚马逊2024黑客松产品信息图像提取数据集-abhinavmangalore

亚马逊2024黑客松产品信息图像提取数据集-abhinavmangalore 数据来源：互联网公开数据标签：亚马逊,黑客松,机器学习,图像处理,实体提取,产品信息,电商,医疗,内容审核

数据概述：本数据集用于亚马逊2024黑客松任务，旨在开发从产品图像中提取关键产品信息（如重量、体积、电压、瓦特和尺寸等）的机器学习模型。数据集包括训练集和测试集，主要字段如下：

index：每个数据样本的唯一标识符。 image_link：产品图像的下载链接。 group_id：产品类别代码。 entity_name：产品实体名称（例如，“item_weight”）。 entity_value：对应实体的值（例如，“34 gram”）。注意：此字段在测试集中不可用，因为它是目标变量。

数据用途概述：该数据集适用于电商、医疗和内容审核等行业，主要用途包括产品信息自动化提取、图像数据处理和机器学习模型开发。通过训练和测试模型，用户可以实现从图像中自动识别和提取关键产品信息，提高数据处理效率和准确性。此外，该数据集也可用于教学和研究目的，帮助学习者理解和掌握图像处理和机器学习的基本原理。

文件描述： - amazon_sanity.py：用于确保输出文件格式正确的脚本。 - amazon_utils.py：包含用于下载图像的辅助函数。 - amazon_constants.py：包含每个实体类型的允许单位。 - sample_code.py：生成正确格式输出文件的示例代码。 - train.csv：包含标签（entity_value）的训练文件。 - test.csv：需要预测的测试文件（缺少entity_value）。 - sample_test.csv：示例输入测试文件。 - sample_test_out.csv：正确格式的示例输出文件。

提交要求： - 输出文件应命名为test_out.csv，格式与sample_test_out.csv一致。 - 预测结果应遵循指定格式：数值后跟单位（例如，“2 gram”）。 - 允许的单位参见附录。 - 输出文件必须通过amazon_sanity.py的格式检查，输出“Parsing successful for file: ...csv”。

附录：允许单位 - 宽度, 深度, 高度：厘米, 英尺, 毫米, 米, 英寸, 码 - 项目重量, 最大重量推荐值：毫克, 千克, 微克, 克, 盎司, 吨, 磅 - 电压：毫伏, 千伏, 伏 - 瓦特：千瓦, 瓦 - 项目体积：立方英尺, 微升, 杯, 流体盎司, 厘升, 帝制加仑, 品脱, 分升, 升, 毫升, 夸脱, 立方英寸, 加仑

评估标准：提交结果将使用F1分数进行评估。分类逻辑如下：

真正例（True Positives）：预测值和真实值均非空且匹配。
假正例（False Positives）：预测值非空但与真实值不匹配，或真实值为空。
假负例（False Negatives）：预测值为空但真实值非空。
真负例（True Negatives）：预测值和真实值均为空。

F1分数计算公式： F1 = 2 * (Precision * Recall) / (Precision + Recall) 其中： - 精确率（Precision）= 真正例 / (真正例 + 假正例) - 召回率（Recall）= 真正例 / (真正例 + 假负例)

数据与资源

versions_20250408043111.zipZIP
4.93 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	4.93 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

亚马逊2024黑客松产品信息图像提取数据集-abhinavmangalore

数据与资源

附加信息

注册成功！