斯拉夫语际理解中的语言模型_惊奇度与想象数据集

数据集概述

本数据集围绕斯拉夫语际理解展开,包含两项核心内容:一是捷克母语者合作翻译波兰语句子的有声思维协议转录文本,二是捷克读者完成波兰语完形填空翻译任务的响应数据及社会人口学信息,同时附带基于捷克语料库训练的语言模型生成的惊奇度分数数据。

文件详解

  • 文件名称: webresults_cloze_publication.xlsx
  • 文件格式: Excel表格(.xlsx)
  • 内容说明:
  • 工作表1、3、5: 捷克母语者合作翻译波兰语句子的有声思维协议转录文本
  • 工作表2、4、6: 23名捷克读者完成波兰语完形填空翻译任务的响应数据(含手动校验结果,拼写错误视为正确)、社会人口学数据,以及列"Total Time Spent (ms)"(填写响应的耗时)
  • 文件名称: surprisal_scores_CS_LM.txt
  • 文件格式: 文本文件(.txt)
  • 内容说明: 基于捷克语料库(InterCorp捷克部分+俄罗斯国家语料库捷克部分,共十七万五千一百九十个词)训练的统计三元语言模型(采用Kneser-Ney平滑)生成的惊奇度分数数据

适用场景

  • 斯拉夫语际理解研究: 分析捷克母语者对波兰语的理解与翻译策略
  • 语言模型评估: 验证基于三元模型的惊奇度分数对语际理解难度的预测能力
  • 心理语言学分析: 探究有声思维协议中的认知过程与完形填空任务的响应模式差异
  • 翻译研究: 比较合作翻译与独立完形填空任务的翻译结果差异及影响因素
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.14 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。