数据集

自然故事语料库数据集1963-2021

自然故事语料库数据集1963-2021 数据来源：互联网公开数据标签：自然语言处理,阅读时间,语料库,低频语法构型,心理学,语言学

数据概述：本数据集是专为自然语言处理模型评估而设计的语料库，包含10篇自然故事文本及其详细的阅读时间和心理语言学测量数据。语料库旨在提供丰富的、包含低频语法构型的自然化语言材料，以帮助更好地区分不同的语言处理理论。每个故事的文本及各种注释都与文件words.tsv中的唯一标记码相关联，这些标记码涵盖了不同分词方案下的每个标记。

数据用途概述：该数据集适用于语言处理模型的评估、阅读时间预测、语法构型研究、心理语言学研究等多种场景。研究者可以利用此数据集探索不同单词和语法结构的阅读时间差异，分析不同词性的阅读速度，评估个体间的阅读速度变化，并研究单词长度与阅读速度之间的关系。

举例：数据集中包含了10篇自然故事，参与者通常阅读其中的5篇。文件batch1_pro.csv和batch2_pro.csv记录了这些故事的阅读时间数据。all_stories.tok文件包含了10篇故事的文本，每个单词占据一行，记录了故事编号和单词在故事中的位置。例如，1.57.whole代表“owners.”这个完整的标记，而1.57.word代表去掉标点符号后的“owners”。这些标记码确保了在不同注释和测量之间的统一追踪。

数据与资源

自然故事语料库数据集1963-2021.zipZIP
3.90 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	3.9 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

自然故事语料库数据集1963-2021

数据与资源

附加信息

注册成功！