纽约时报畅销书排行榜1931至2024年小说与非小说类数据集-bryantreese
数据来源:互联网公开数据
标签:纽约时报,畅销书,小说,非小说,文学研究,历史趋势,作者分析,书籍分析,数据可视化
数据概述:
本数据集收录了1931年至2024年纽约时报畅销书排行榜中小说和非小说类书籍的完整记录。数据来源于Hawes.com网站提供的PDF文件,通过Python脚本进行数据抓取、清洗和处理,包含小说类(fiction_all.csv)、非小说类(non_fiction_all.csv)、合并数据(merged_genres.csv)、作者出现情况(author_appearances.csv)和书籍出现情况(book_appearances.csv)五个数据文件。
小说数据(fiction_all.csv)包含小说类畅销书的排名、标题、作者、出版社、描述和类别。非小说数据(non_fiction_all.csv)包含非小说类畅销书的相同信息。合并数据(merged_genres.csv)结合了小说和非小说两类数据,并添加了类别字段。作者出现数据(author_appearances.csv)统计了每位作者在排行榜上出现的次数及其主要类别。书籍出现数据(book_appearances.csv)统计了每本书在排行榜上出现的次数及其类别。
数据用途概述:
该数据集适用于文学研究、历史趋势分析、作者和书籍表现评估等多种场景。研究人员可以通过此数据集了解不同类别书籍在历史上的畅销趋势,分析作者的影响力,识别畅销书籍的特征,以及进行教育和科普活动。此外,数据集为公众提供了了解纽约时报畅销书排行榜历史的便捷途径。
数据集中的条形图可视化(authors.html和books.html)展示了频繁出现在排行榜上的作者和书籍,帮助用户快速掌握关键信息。所有数据处理脚本和可视化代码均托管在GitHub仓库(https://github.com/breese5/NYTBestseller1931-2024),供公众访问和使用。数据集和相关代码均采用MIT开源许可证,允许自由使用、修改和分享,但需注明来源。