CommonLit外部数据集-2021-sayantankirtaniya

CommonLit外部数据集-2021-sayantankirtaniya 数据来源:互联网公开数据 标签:CommonLit,可读性分析,教育数据,儿童文学,文本处理,阅读水平评估

数据概述: 本数据集包含五个CSV文件和一个.npy文件,主要用于CommonLit可读性大奖赛。数据集来源于多个不同的资源,并经过预处理和清洗,旨在为文本可读性分析提供支持。

all_data.csv:该数据集来自OneStopEnglishCorpus,包含小学、初中和高中的文本数据。数据集已经完成预处理和清洗,包含三个列:Elementary(小学)、Intermediate(初中)、Advanced(高中)。每个列分别存储对应学段的文本数据。

children_books.csv:该数据集来自高评分儿童书籍和故事的集合,包含儿童书籍的相关信息。字段包括:Title(书名)、Author(作者)、Desc(描述)、Interest_Rate(兴趣评分)、Reading_age(推荐阅读年龄)。

children_stories.csv:该数据集同样来自高评分儿童书籍和故事的集合,包含儿童故事的相关信息。字段包括:names(故事名)、cats(分类)、desc(描述)。

corpus.csv:该数据集来自GitHub用户TovlyDeutsch的仓库,包含未整理的原始文本数据。我们对数据进行了整理、清洗和预处理,使其更易于使用。

Fullset.csv:该数据集为所有子集数据的汇总,包含all_data.csv、children_books.csv、children_stories.csv和corpus.csv中的数据。总共有27283个唯一数据点,字段仅为corpus,包含所有合并后的文本数据,可用于计算可读性评分。

Fullset.npy:该文件包含所有数据集的列表,便于用户添加或删除数据。通过使用此文件,用户可以更方便、高效地管理数据。

数据用途概述: 该数据集适用于文本可读性分析、教育研究、儿童文学研究等多个场景。研究人员和教育者可以利用这些数据评估文本的阅读难度,优化教育内容和教学方法;儿童文学爱好者和作家可以从中获取灵感和素材;数据科学家可以利用这些数据进行自然语言处理、机器学习等领域的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 45.11 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。