NBA历史数据集说明文档
数据集概述
本数据集是一个全面的NBA历史数据集合,包含了从2016年-2022年的完整比赛数据。数据集涵盖了比赛逐回合记录、球员信息、球队数据、选秀历史、技术统计等多个维度,为篮球数据分析、体育科学研究和商业智能应用提供了丰富的数据基础。
数据规模
总数据量:14,060,548行记录
文件数量:16个CSV文件
总存储大小:2.15GB
时间跨度:1916年-2022年
涵盖球队:30支现役球队及历史球队
球员数量:4,800+名球员
比赛场次:65,000+场比赛
核心数据文件
比赛逐回合数据(play_by_play.csv)
最大的数据文件,包含13,592,900行记录,详细记录了每场比赛的每个回合动作,包括投篮、犯规、换人、暂停等34个字段。数据质量较高,缺失率为36.65%,主要集中在描述性字段。
比赛基础信息(game_info.csv)
包含58,053场比赛的基础信息,涵盖比赛日期、上座率、比赛时长等关键指标。数据完整性良好,缺失率仅为14.42%。
球员档案(player.csv)
收录4,831名球员的基本信息,包括姓名、状态等核心字段,数据质量极高,缺失率仅为0.02%。
球队历史(team_history.csv)
记录25支球队的历史变迁,包括城市迁移、更名历史、成立年份等完整信息。
技术统计(game.csv、other_stats.csv)
详细的比赛技术统计,包括得分、篮板、助攻、投篮命中率等55个统计指标,为深度分析提供数据支撑。
适用于统计计算(Statistical Computing)课程,使用Monte Carlo模拟与Bootstrap方法分析比赛数据,进行球员表现与赛季分析。
适用场景
体育分析
球员表现评估
球队战术分析
比赛趋势研究
历史数据对比
商业应用
球员价值评估
市场营销分析
票房预测建模
媒体内容创作
学术研究
体育科学研究
统计学应用
机器学习建模
数据挖掘实践
数据科学教育
时间序列分析教学
数据可视化案例
统计学习实践
大数据处理训练