LangReg多语言情境下语内变异语料库2021_2022

数据集概述

该数据集是记录跨语言及不同情境功能语境下语内变异的多语言语料库,包含德语、波斯语、库尔德语、爪哇语四种语言,收集了2021至2022年的数据,涵盖六种情境下的语言产出,支持口语与书面语模式比较。

文件详解

  • 综合压缩包:
  • LangReg-complete.zip: 完整语料库压缩包,包含所有语言数据
  • 单语言压缩包:
  • German.zip: 德语数据集压缩包,含转录、归一化、标记及句法标注等
  • Javanese.zip: 爪哇语数据集压缩包,含转录、归一化及英印尼双语翻译等
  • Persian.zip: 波斯语数据集压缩包,含转录、归一化及子句类型等语言标注
  • Kurdish.zip: 库尔德语数据集压缩包,含转录、归一化及语码转换标注等

适用场景

  • 语言学研究: 分析同一语言使用者在不同情境下的语言变异特征
  • 社会语言学研究: 探究语域差异与交际场景、对话者关系的关联
  • 多语言对比研究: 比较不同语言在相似情境下的语言产出模式
  • 计算语言学应用: 为自然语言处理模型提供多情境多语言标注数据支持
  • 语言教育研究: 分析不同交际任务对语言使用的影响机制
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 150.2 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。