自然故事语料库数据集1963-2021

自然故事语料库数据集1963-2021 数据来源:互联网公开数据 标签:自然语言处理,阅读时间,语料库,低频语法构型,心理学,语言学

数据概述: 本数据集是专为自然语言处理模型评估而设计的语料库,包含10篇自然故事文本及其详细的阅读时间和心理语言学测量数据。语料库旨在提供丰富的、包含低频语法构型的自然化语言材料,以帮助更好地区分不同的语言处理理论。每个故事的文本及各种注释都与文件words.tsv中的唯一标记码相关联,这些标记码涵盖了不同分词方案下的每个标记。

数据用途概述: 该数据集适用于语言处理模型的评估、阅读时间预测、语法构型研究、心理语言学研究等多种场景。研究者可以利用此数据集探索不同单词和语法结构的阅读时间差异,分析不同词性的阅读速度,评估个体间的阅读速度变化,并研究单词长度与阅读速度之间的关系。

举例: 数据集中包含了10篇自然故事,参与者通常阅读其中的5篇。文件batch1_pro.csv和batch2_pro.csv记录了这些故事的阅读时间数据。all_stories.tok文件包含了10篇故事的文本,每个单词占据一行,记录了故事编号和单词在故事中的位置。例如,1.57.whole代表“owners.”这个完整的标记,而1.57.word代表去掉标点符号后的“owners”。这些标记码确保了在不同注释和测量之间的统一追踪。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.9 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。