CELEN_Shareable_日语学习者西班牙语语料库共享数据_v1_2

数据集概述

本数据集是CELEN语料库(版本1.2)的共享部分,包含约39.1万个单词、4393篇文本,来自967名日语背景的西班牙语学习者。数据覆盖大学西班牙语专业、大学外语课程及WordReference论坛三个场景,标注了学习者水平(A1-B2、C2),并对大学来源文本进行了匿名化处理,采用XML格式存储,附带39项元数据。

文件详解

  • 文件名称:20230505_CELEN_shareable.xml
  • 文件格式:XML
  • 字段映射介绍:
  • 文档结构:每篇文本以开头、结尾,包含39项元数据(具体元数据内容需参考项目说明)
  • 文本标记:段落用段落内容标记;WordReference论坛文本中,``标记原生西班牙语使用者的回复位置
  • 匿名化处理:大学来源文本中的人名替换为#Nombre-mujer#等标签,电话、邮箱等身份信息已修改

数据来源

CELEN项目(https://sites.google.com/view/celen

适用场景

  • 西班牙语二语习得研究:分析日语学习者在不同水平(A1-C2)的语言产出特征、错误类型及发展规律
  • 语言教学资源开发:基于真实学习者语料设计针对性的西班牙语教学材料和练习
  • 语料库语言学研究:探究日语背景学习者西班牙语使用的词汇、句法和语用特点
  • 二语写作能力评估:构建学习者写作水平标注数据集,支持自动评分模型训练
  • 跨语言对比分析:对比不同学习场景(专业课程、外语课程、论坛)下的学习者语言表现差异
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 7.5 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。