Commonlit阅读理解文章难度评估数据集-2020年8月

Commonlit阅读理解文章难度评估数据集-2020年8月 数据来源:互联网公开数据 标签:阅读理解,文本分析,教育,自然语言处理,阅读难度,文本数据,Commonlit,机器学习 数据概述: 本数据集旨在评估英语阅读材料的阅读难度,包含了Commonlit平台提供的文章节选及其对应的阅读难度评分。数据集涵盖了大量不同主题和风格的文本片段,并附有阅读难度的量化指标,为研究阅读理解和文本可读性提供了宝贵的资源。数据集中每个样本都包含文章的唯一ID、文章内容节选、阅读难度目标值以及标准误差。

数据用途概述: 该数据集可广泛应用于教育、语言学、自然语言处理等领域。研究人员可以利用此数据训练和评估文本可读性预测模型,开发个性化阅读推荐系统,或分析影响阅读难度的文本特征。教育工作者可以利用此数据评估教学材料的难度,优化教学内容,提升学生的阅读理解能力。此外,该数据集也可用于研究不同年龄段、不同阅读水平的读者对文本的理解差异。

字段定义: id:文章节选的唯一标识符。 url_legal:文章来源的URL地址,测试集中为空。 license:文章的授权许可,测试集中为空。 excerpt:文章的节选文本。 target:文章的阅读难度评分。 standard_error:多个评估者对文章阅读难度评分的标准误差,测试集中不包含此字段。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.95 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。