数据集概述
本数据集是CELEN语料库(版本1.2)的共享部分,包含约39.1万个单词、4393篇文本,来自967名日语背景的西班牙语学习者。数据覆盖大学西班牙语专业、大学外语课程及WordReference论坛三个场景,标注了学习者水平(A1-B2、C2),并对大学来源文本进行了匿名化处理,采用XML格式存储,附带39项元数据。
文件详解
- 文件名称:
20230505_CELEN_shareable.xml
- 文件格式:XML
- 字段映射介绍:
- 文档结构:每篇文本以
开头、结尾,包含39项元数据(具体元数据内容需参考项目说明)
- 文本标记:段落用
段落内容标记;WordReference论坛文本中,``标记原生西班牙语使用者的回复位置
- 匿名化处理:大学来源文本中的人名替换为#Nombre-mujer#等标签,电话、邮箱等身份信息已修改
数据来源
CELEN项目(https://sites.google.com/view/celen)
适用场景
- 西班牙语二语习得研究:分析日语学习者在不同水平(A1-C2)的语言产出特征、错误类型及发展规律
- 语言教学资源开发:基于真实学习者语料设计针对性的西班牙语教学材料和练习
- 语料库语言学研究:探究日语背景学习者西班牙语使用的词汇、句法和语用特点
- 二语写作能力评估:构建学习者写作水平标注数据集,支持自动评分模型训练
- 跨语言对比分析:对比不同学习场景(专业课程、外语课程、论坛)下的学习者语言表现差异