数据集

Kaggle竞赛网页信息数据集-2023年-anthony35813

Kaggle竞赛网页信息数据集-2023年-anthony35813 数据来源：互联网公开数据标签：Kaggle,竞赛,网页信息,数据收集,文本分类,自动化,机器学习,报告

数据概述：本数据集包含超过5000个Kaggle竞赛的网页信息，这些信息在制作2023年Kaggle AI报告时收集。Meta Kaggle数据集提供了关于Kaggle竞赛的有用信息，但缺少每个竞赛的原始描述性文本。我们有解决方案的信息，但缺乏原始问题的描述。因此，我编写了一些网页抓取脚本来收集和存储这些信息。

由于并非所有Kaggle网页都提供这些信息，有些页面可能缺失或损坏，因此数据中存在一些空值。其次，要注意并不是所有的Kaggle历史竞赛都存在于Meta Kaggle数据集中，该数据集用于收集网页链接。

抓取脚本会遍历Meta Kaggle competitions.csv数据中的ID，并尝试收集该竞赛的网页数据，如果数据库中当前为空的话。因此，新的ID会导致脚本去收集其数据，而每周脚本会尝试填补之前无法访问的链接。

我最近将原始的本地抓取脚本转换为一个Kaggle笔记本，该笔记本现在每周一都会更新此数据集，并解释抓取过程及其自动化机制以保持数据集的最新状态。

CompetitionId字段与Meta Kaggle competitions.csv中的Id字段连接，以便将此信息与其他Meta Kaggle数据结合。

数据用途概述：该数据集适用于文本分类研究、Kaggle竞赛分析、机器学习项目和数据科学研究等多种场景。研究人员可以利用此数据进行文本分类工作；数据科学家可以使用这些信息来深入分析Kaggle竞赛的内容和结构；教育者可以利用这些数据增强机器学习和数据分析课程的内容。此外，该数据集对于希望了解Kaggle竞赛生态系统和历史的研究者也具有很高的价值。

数据与资源

versions_20250410104116.zipZIP
97.28 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	97.28 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Kaggle竞赛网页信息数据集-2023年-anthony35813

数据与资源

附加信息

注册成功！