数据集

Commonlit阅读理解文章难度评估数据集-2020年8月

Commonlit阅读理解文章难度评估数据集-2020年8月数据来源：互联网公开数据标签：阅读理解,文本分析,教育,自然语言处理,阅读难度,文本数据,Commonlit,机器学习数据概述：本数据集旨在评估英语阅读材料的阅读难度，包含了Commonlit平台提供的文章节选及其对应的阅读难度评分。数据集涵盖了大量不同主题和风格的文本片段，并附有阅读难度的量化指标，为研究阅读理解和文本可读性提供了宝贵的资源。数据集中每个样本都包含文章的唯一ID、文章内容节选、阅读难度目标值以及标准误差。

数据用途概述：该数据集可广泛应用于教育、语言学、自然语言处理等领域。研究人员可以利用此数据训练和评估文本可读性预测模型，开发个性化阅读推荐系统，或分析影响阅读难度的文本特征。教育工作者可以利用此数据评估教学材料的难度，优化教学内容，提升学生的阅读理解能力。此外，该数据集也可用于研究不同年龄段、不同阅读水平的读者对文本的理解差异。

字段定义： id：文章节选的唯一标识符。 url_legal：文章来源的URL地址，测试集中为空。 license：文章的授权许可，测试集中为空。 excerpt：文章的节选文本。 target：文章的阅读难度评分。 standard_error：多个评估者对文章阅读难度评分的标准误差，测试集中不包含此字段。

数据与资源

Commonlit阅读理解文章难度评估数据集-2020年8月.zipZIP
0.95 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.95 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。