Commonlit阅读理解文章难度评估数据集-2020年8月
数据来源:互联网公开数据
标签:阅读理解,文本分析,教育,自然语言处理,阅读难度,文本数据,Commonlit,机器学习
数据概述:
本数据集旨在评估英语阅读材料的阅读难度,包含了Commonlit平台提供的文章节选及其对应的阅读难度评分。数据集涵盖了大量不同主题和风格的文本片段,并附有阅读难度的量化指标,为研究阅读理解和文本可读性提供了宝贵的资源。数据集中每个样本都包含文章的唯一ID、文章内容节选、阅读难度目标值以及标准误差。
数据用途概述:
该数据集可广泛应用于教育、语言学、自然语言处理等领域。研究人员可以利用此数据训练和评估文本可读性预测模型,开发个性化阅读推荐系统,或分析影响阅读难度的文本特征。教育工作者可以利用此数据评估教学材料的难度,优化教学内容,提升学生的阅读理解能力。此外,该数据集也可用于研究不同年龄段、不同阅读水平的读者对文本的理解差异。
字段定义:
id:文章节选的唯一标识符。
url_legal:文章来源的URL地址,测试集中为空。
license:文章的授权许可,测试集中为空。
excerpt:文章的节选文本。
target:文章的阅读难度评分。
standard_error:多个评估者对文章阅读难度评分的标准误差,测试集中不包含此字段。