Goodreads图书信息数据集-2021-khanhdnguyen
数据来源:互联网公开数据
标签:Goodreads,图书,数据集,爬虫,数据清洗,可视化,分类,推荐,预测
数据概述:
本数据集包含Goodreads网站上超过20,000本书的信息,由直接爬取Goodreads官方网站的数据构成。由于Goodreads自2020年12月起不再发行新的开发者API密钥,因此创建了一个Goodreads爬虫项目来获取原始数据。数据集包含一些原始数据的常见问题,如重复数据、缺失值、无效值、多值列和不同的日期格式等。
数据集的字段包括:
- bookID:书籍ID
- title:书名
- authors:作者列表
- description:书籍摘要描述
- num_ratings:总评分数量
- num_reviews:总评论数量
- avg_rating:平均评分
- language:语言
- publish date:当前书籍的出版日期
- first_publish_date:第一版的出版日期
- series:书籍所属系列
- characters:角色列表
- places:地点列表
- awards:获奖列表
- genres:书籍分类列表
- isbn:国际标准书号
- isbn13:国际标准书号(13位)
- rated 5, 4, 3, 2, 1:各评分等级的评论数量
数据用途概述:
该数据集适用于多种应用场景,包括数据清洗、数据可视化、图书分类、图书推荐系统开发以及预测书籍的受欢迎程度和评分等。研究人员可以使用此数据进行数据探索和分析;教育者可以利用该数据进行教学;图书推荐系统开发者可以基于此数据集构建推荐算法;出版商可以分析书籍的市场表现并制定相应的策略。