数据集概述
本数据集包含全球电子游戏销售的综合信息,涵盖从1970年至2024年超过6万款游戏的销售表现、平台分布、发行商信息和用户评价等关键数据。数据集以游戏作品为基本记录单位,提供多维度的游戏产业分析视角。
数据规模与结构
数据集总计63,927条记录,包含16个数据字段。数据采用CSV格式存储,文件大小约5.7MB,使用UTF-8编码格式。每条记录代表一款游戏在特定平台上的销售和评价信息。
字段定义
基础信息字段
- Rank: 游戏销售排名(数值型,1-63927)
- Name: 游戏名称(文本型,包含39,732个不同游戏)
- Platform: 游戏平台(文本型,涵盖81个不同平台)
- Publisher: 发行商(文本型,包含3,385家不同发行商)
- Developer: 开发商(文本型,包含8,860家不同开发商)
- Year: 发行年份(数值型,范围1970-2024年)
- Genre: 游戏类型(文本型,包含20个不同类型)
销售数据字段
- NA_Sales: 北美地区销售量(数值型,单位:百万份)
- PAL_Sales: PAL地区销售量(数值型,单位:百万份)
- JP_Sales: 日本地区销售量(数值型,单位:百万份)
- Other_Sales: 其他地区销售量(数值型,单位:百万份)
- Global_Sales: 全球总销售量(数值型,单位:百万份)
评价信息字段
- Critic_Score: 专业评分(数值型,1-10分制)
- User_Score: 用户评分(数值型,1-10分制)
扩展信息字段
- All_Platforms: 游戏全平台信息(文本型)
- All_Games: 游戏系列信息(文本型)
数据特征
数据集呈现明显的时间分布特征,游戏发行年份集中在2006年前后,反映了电子游戏产业的发展历程。销售数据显示全球市场平均销量为47.7万份,北美市场占主导地位,平均销量达34.5万份。
平台分布涵盖主机、掌机、PC等81个不同平台,体现了游戏产业平台多样化的特点。游戏类型包含20个不同分类,为产业细分分析提供支撑。
数据质量说明
数据集整体缺失率为49.04%,主要集中在销售数据和评分字段。专业评分缺失率达89.7%,用户评分缺失率为99.4%,销售数据各地区缺失率在68.2%-88.0%之间。发行年份字段缺失率相对较低,为10.7%。
需要注意的是,数据集存在99.9%的重复记录,在使用时需要根据分析需求进行适当的数据清洗处理。
适用场景
本数据集适用于游戏产业市场研究、销售趋势分析、平台竞争力评估、地区市场偏好研究、发行商业绩分析等多种应用场景。可支持时间序列分析、市场细分研究、相关性分析等统计分析方法。