威尔士语词典语料库词汇及语境分析数据集-rtatman
数据来源:互联网公开数据
标签:威尔士语,词典,语言学,语料库,词汇,语言分析,凯尔特语,翻译,双语,单语
数据概述:
本数据集收录了Eurfa词典所包含的多个语料库数据,Eurfa词典是目前最大的采用自由许可协议的威尔士语词典,也是首个列出动词变形和变体形式的凯尔特语词典。数据包含了词典中大部分单词的语境引用。语料库包括双语(威尔士语-英语、威尔士语-西班牙语)和单语(仅威尔士语)两种类型。
双语语料库:
Kynulliad3语料库(K3),包含1800万词,主要为正式书面威尔士语,大部分为从英语翻译而来。
Siarad语料库(S),包含45万词,为转录的对话,包含“原汁原味”的威尔士语,包括英语代码转换。
Patagonia语料库(P),包含20万词,为来自巴塔哥尼亚的威尔士语口语对话。代码转换较少,多为西班牙语而非英语。
Korrect/Kywiro语料库(Ko),包含20万词,为自由/开源软件程序中威尔士语对英语文本的翻译。
单语语料库:
CIG1儿童语言习得语料库(Kig1),包含22万词,为30万词语料库的子集,仅包含非儿童的发言。
CIG2儿童语言习得语料库(Kig2),包含10万词,为56万词语料库的子集,仅包含非儿童的发言。
数据用途概述:
该数据集适用于多种语言学研究,包括词汇分析、语境研究、翻译研究、语言习得研究等。研究人员可以利用该数据分析威尔士语词汇的用法、频率和语义变化;翻译人员可以利用该数据进行翻译辅助和术语查找;语言学习者可以利用该数据学习威尔士语的实际应用场景。此外,该数据集也为威尔士语的自然语言处理和机器翻译提供了重要的资源。