Goodreads图书信息数据集-2021-khanhdnguyen

Goodreads图书信息数据集-2021-khanhdnguyen 数据来源:互联网公开数据 标签:Goodreads,图书,数据集,爬虫,数据清洗,可视化,分类,推荐,预测

数据概述: 本数据集包含Goodreads网站上超过20,000本书的信息,由直接爬取Goodreads官方网站的数据构成。由于Goodreads自2020年12月起不再发行新的开发者API密钥,因此创建了一个Goodreads爬虫项目来获取原始数据。数据集包含一些原始数据的常见问题,如重复数据、缺失值、无效值、多值列和不同的日期格式等。

数据集的字段包括: - bookID:书籍ID - title:书名 - authors:作者列表 - description:书籍摘要描述 - num_ratings:总评分数量 - num_reviews:总评论数量 - avg_rating:平均评分 - language:语言 - publish date:当前书籍的出版日期 - first_publish_date:第一版的出版日期 - series:书籍所属系列 - characters:角色列表 - places:地点列表 - awards:获奖列表 - genres:书籍分类列表 - isbn:国际标准书号 - isbn13:国际标准书号(13位) - rated 5, 4, 3, 2, 1:各评分等级的评论数量

数据用途概述: 该数据集适用于多种应用场景,包括数据清洗、数据可视化、图书分类、图书推荐系统开发以及预测书籍的受欢迎程度和评分等。研究人员可以使用此数据进行数据探索和分析;教育者可以利用该数据进行教学;图书推荐系统开发者可以基于此数据集构建推荐算法;出版商可以分析书籍的市场表现并制定相应的策略。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 7.26 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。