MyAnimeList小说推荐系统数据集-2023-asad11914

MyAnimeList小说推荐系统数据集-2023-asad11914

数据来源:互联网公开数据

标签:MyAnimeList,小说推荐,用户评分,交互数据,角色信息,小说数据,API数据

数据概述: 本数据集包含从MyAnimeList获取的小说和轻小说的评分数据,利用Jikan API v4(请注意,该API每秒最多调用3次,每分钟最多调用60次)收集了小说数据、用户数据以及用户评论。数据集包含四个CSV文件,分别存储小说详细信息(novels.csv)、用户详细信息(users.csv)、用户与小说之间的交互(interactions.csv)以及每部小说的角色信息(characters.csv)。

novels.csv文件包含了MyAnimeList上几乎所有的小说和轻小说的详细信息,包括id、标题、英文标题、简介、类型(小说或轻小说)、章节数量、作者、题材、卷数、出版状态、评分、用户评分数量、流行度、收藏量、开始年份、完结年份以及小说封面图片的URL。为保证数据集适用于学校项目,本数据集排除了包含H3ntai、Ecchi、Boys Love和Girls Love题材的小说,同时将"Magical Sex Shift"题材改为"Gender Shift"以便用户更好地理解。

users.csv文件包含用户的详细信息,如用户名、性别和年龄。尽管数据集中包含了性别和年龄信息,但大多数用户并未公开这些个人信息。

interactions.csv文件记录了用户与小说之间的交互数据,这些交互数据是从Jikan API抓取的mangaUserUpdate数据,其中将状态为“Add To Read List”、“Reading”或“Complete”的记录视为正向反馈,其他状态视为负向反馈。在当前版本中,正向反馈约占整个数据的92%。

characters.csv文件包含了每个小说中的角色数据,包括角色名称、所属小说的id以及角色描述。小说id用于标识角色所属的小说,角色描述则提供了角色的具体信息,不同角色的描述格式可能有所不同。

数据用途概述: 该数据集适用于推荐系统开发、用户行为分析、小说题材研究等多个场景。开发者可以利用此数据集构建小说推荐系统;研究人员可分析用户偏好和阅读习惯;学者可以对小说题材分布和角色设定进行研究。此外,数据集也可用于教学演示和数据可视化练习,帮助学习者更好地理解和掌握相关知识。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.62 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。