Kaggle竞赛网页信息数据集-2023年-anthony35813
数据来源:互联网公开数据
标签:Kaggle,竞赛,网页信息,数据收集,文本分类,自动化,机器学习,报告
数据概述:
本数据集包含超过5000个Kaggle竞赛的网页信息,这些信息在制作2023年Kaggle AI报告时收集。Meta Kaggle数据集提供了关于Kaggle竞赛的有用信息,但缺少每个竞赛的原始描述性文本。我们有解决方案的信息,但缺乏原始问题的描述。因此,我编写了一些网页抓取脚本来收集和存储这些信息。
由于并非所有Kaggle网页都提供这些信息,有些页面可能缺失或损坏,因此数据中存在一些空值。其次,要注意并不是所有的Kaggle历史竞赛都存在于Meta Kaggle数据集中,该数据集用于收集网页链接。
抓取脚本会遍历Meta Kaggle competitions.csv数据中的ID,并尝试收集该竞赛的网页数据,如果数据库中当前为空的话。因此,新的ID会导致脚本去收集其数据,而每周脚本会尝试填补之前无法访问的链接。
我最近将原始的本地抓取脚本转换为一个Kaggle笔记本,该笔记本现在每周一都会更新此数据集,并解释抓取过程及其自动化机制以保持数据集的最新状态。
CompetitionId字段与Meta Kaggle competitions.csv中的Id字段连接,以便将此信息与其他Meta Kaggle数据结合。
数据用途概述:
该数据集适用于文本分类研究、Kaggle竞赛分析、机器学习项目和数据科学研究等多种场景。研究人员可以利用此数据进行文本分类工作;数据科学家可以使用这些信息来深入分析Kaggle竞赛的内容和结构;教育者可以利用这些数据增强机器学习和数据分析课程的内容。此外,该数据集对于希望了解Kaggle竞赛生态系统和历史的研究者也具有很高的价值。