数据概述
本数据集记录了2000年至2025年期间电影在北美影院的日度票房收入表现,涵盖超过35万条票房记录。数据集提供了电影标题、上映日期、单日票房收入、放映影院数量以及发行商等关键信息,为电影行业分析、市场研究和商业决策提供详实的数据支撑。
数据结构与字段定义
数据集包含6个核心字段:
id:唯一标识符,为每条记录分配的36位字符串编码
date:票房统计日期,格式为YYYY-MM-DD,时间跨度为2000年1月1日至2025年1月3日
title:电影标题,平均长度16个字符,涵盖7176部不同影片
revenue:单日票房收入,以美元为单位,数值范围从0到1.57亿美元
theaters:放映影院数量,范围从1家到4931家影院
distributor:电影发行商,包含387个不同的发行公司
数据特征
数据集总计356322条记录,数据质量良好,整体缺失率仅为0.03%。时间维度覆盖25年完整周期,包含9122个不同统计日期。收入数据呈现典型的长尾分布特征,平均单日票房约62万美元,最高单日票房超过1.5亿美元。影院数量平均为865家,反映了不同规模电影的市场投放策略。
适用场景
该数据集适合多种分析应用场景:电影产业市场分析、票房预测模型构建、发行策略效果评估、季节性趋势研究、竞争格局分析以及投资回报率计算。同时可支持学术研究、商业咨询和行业报告撰写等专业用途。
数据来源与格式
数据以CSV格式存储,文件大小31.89MB,采用ASCII编码,使用逗号作为分隔符。数据结构清晰,便于各类数据分析工具导入和处理。
时间范围与更新频率
数据时间跨度为2000年1月至2025年1月,涵盖完整的25年历史周期。数据按日度颗粒度统计,能够支持细致的时间序列分析和趋势挖掘。