CommonLit外部数据集-2021-sayantankirtaniya

CommonLit外部数据集-2021-sayantankirtaniya 数据来源：互联网公开数据标签：CommonLit,可读性分析,教育数据,儿童文学,文本处理,阅读水平评估

数据概述：本数据集包含五个CSV文件和一个.npy文件，主要用于CommonLit可读性大奖赛。数据集来源于多个不同的资源，并经过预处理和清洗，旨在为文本可读性分析提供支持。

all_data.csv：该数据集来自OneStopEnglishCorpus，包含小学、初中和高中的文本数据。数据集已经完成预处理和清洗，包含三个列：Elementary（小学）、Intermediate（初中）、Advanced（高中）。每个列分别存储对应学段的文本数据。

children_books.csv：该数据集来自高评分儿童书籍和故事的集合，包含儿童书籍的相关信息。字段包括：Title（书名）、Author（作者）、Desc（描述）、Interest_Rate（兴趣评分）、Reading_age（推荐阅读年龄）。

children_stories.csv：该数据集同样来自高评分儿童书籍和故事的集合，包含儿童故事的相关信息。字段包括：names（故事名）、cats（分类）、desc（描述）。

corpus.csv：该数据集来自GitHub用户TovlyDeutsch的仓库，包含未整理的原始文本数据。我们对数据进行了整理、清洗和预处理，使其更易于使用。

Fullset.csv：该数据集为所有子集数据的汇总，包含all_data.csv、children_books.csv、children_stories.csv和corpus.csv中的数据。总共有27283个唯一数据点，字段仅为corpus，包含所有合并后的文本数据，可用于计算可读性评分。

Fullset.npy：该文件包含所有数据集的列表，便于用户添加或删除数据。通过使用此文件，用户可以更方便、高效地管理数据。

数据用途概述：该数据集适用于文本可读性分析、教育研究、儿童文学研究等多个场景。研究人员和教育者可以利用这些数据评估文本的阅读难度，优化教育内容和教学方法；儿童文学爱好者和作家可以从中获取灵感和素材；数据科学家可以利用这些数据进行自然语言处理、机器学习等领域的研究。

数据与资源

字段	值
版本	1.0
数据集大小	45.11 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。