CommonLit外部数据集-2021-sayantankirtaniya
数据来源:互联网公开数据
标签:CommonLit,可读性分析,教育数据,儿童文学,文本处理,阅读水平评估
数据概述:
本数据集包含五个CSV文件和一个.npy文件,主要用于CommonLit可读性大奖赛。数据集来源于多个不同的资源,并经过预处理和清洗,旨在为文本可读性分析提供支持。
all_data.csv:该数据集来自OneStopEnglishCorpus,包含小学、初中和高中的文本数据。数据集已经完成预处理和清洗,包含三个列:Elementary(小学)、Intermediate(初中)、Advanced(高中)。每个列分别存储对应学段的文本数据。
children_books.csv:该数据集来自高评分儿童书籍和故事的集合,包含儿童书籍的相关信息。字段包括:Title(书名)、Author(作者)、Desc(描述)、Interest_Rate(兴趣评分)、Reading_age(推荐阅读年龄)。
children_stories.csv:该数据集同样来自高评分儿童书籍和故事的集合,包含儿童故事的相关信息。字段包括:names(故事名)、cats(分类)、desc(描述)。
corpus.csv:该数据集来自GitHub用户TovlyDeutsch的仓库,包含未整理的原始文本数据。我们对数据进行了整理、清洗和预处理,使其更易于使用。
Fullset.csv:该数据集为所有子集数据的汇总,包含all_data.csv、children_books.csv、children_stories.csv和corpus.csv中的数据。总共有27283个唯一数据点,字段仅为corpus,包含所有合并后的文本数据,可用于计算可读性评分。
Fullset.npy:该文件包含所有数据集的列表,便于用户添加或删除数据。通过使用此文件,用户可以更方便、高效地管理数据。
数据用途概述:
该数据集适用于文本可读性分析、教育研究、儿童文学研究等多个场景。研究人员和教育者可以利用这些数据评估文本的阅读难度,优化教育内容和教学方法;儿童文学爱好者和作家可以从中获取灵感和素材;数据科学家可以利用这些数据进行自然语言处理、机器学习等领域的研究。