车库检测非官方SSL挑战数据集-2020年-yeayates21
数据来源:互联网公开数据
标签:车库检测,SSL挑战,图像识别,半监督学习,数据集,教育,科研
数据概述:
本数据集来源于非官方SSL挑战,旨在通过半监督学习技术进行车库检测系统的构建。数据集包含从Google Images抓取的图像和相关标签,用于训练和验证模型。数据集主要包括两部分:训练数据和图像文件。
训练数据文件为image_labels_train.csv,包含图像的唯一ID、是否可见车库门入口(GarageDoorEntranceIndicator)、是否合理认为照片中涵盖了该房产的所有车库门入口(AllGarageDoorEntrancesVisible)等关键字段。图像文件存放在GarageImages文件夹中。其中,只有少量图像有标签,其余为未标记的图像,因此需要使用半监督学习方法。
字段描述:
- ID:每个图像的随机唯一ID号
- GarageDoorEntranceIndicator:如果照片中可见车库门入口,则值为1,否则为0(主要目标)
- AllGarageDoorEntrancesVisible:如果照片中合理认为涵盖了该房产的所有车库门入口,则值为1,否则为0
评估:
请使用image_labels_holdout.csv文件对最终模型进行评分,性能评估基于AUC。计算方法如下:
fpr, tpr, thresholds = metrics.roc_curve(y, pred, pos_label=1)
metrics.auc(fpr, tpr)
其他说明:
背景:
在作者的职业生涯中,曾参与一个车库检测系统的建设项目,但项目未能继续推进。作者对此项目充满热情,因此决定使用Google Images上的图像尝试复现该项目,并借此机会学习半监督学习技术,与数据科学社区合作进行研究。
数据收集:
使用以下代码从Google Images抓取图像:https://github.com/yeamusic21/GarageDetection/blob/master/ScrapeImages.py
数据抓取时间约为2020年5月至6月,持续1-2个月,使用了包括“zillow homes ohio”、“garage”在内的多种搜索词。
致谢:
图像抓取脚本参考了Gene Kogan的代码:
https://gist.github.com/genekogan/ebd77196e4bf0705db51f86431099e57
https://gist.github.com/genekogan
https://genekogan.com/
灵感来源:
Kaggle有许多比赛,但真正要求使用半监督学习的比赛不多。该数据集和非官方挑战旨在促进半监督学习的教育和实验。
半监督学习资源:
http://www.cs.cmu.edu/~10701/slides/17_SSL.pdf
https://ruder.io/semi-supervised/
https://www.molgen.mpg.de/3659531/MITPressSemiSupervised-Learning.pdf
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
许可信息:
由于数据从Google Images抓取,仅用于教育目的。发布数据旨在符合公平使用原则,请在使用前自行了解相关法律条款。
https://thelawtog.com/memes-violate-copyright-law/:~:text=An%20Internet%20Meme%20is%20in,are%20not%20exhaustive%20or%20absolute.