CELEN_Shareable_日语学习者西班牙语语料库共享数据_v1_2

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

CELEN_Shareable_日语学习者西班牙语语料库共享数据_v1_2

数据集概述

本数据集是CELEN语料库（版本1.2）的共享部分，包含约39.1万个单词、4393篇文本，来自967名日语背景的西班牙语学习者。数据覆盖大学西班牙语专业、大学外语课程及WordReference论坛三个场景，标注了学习者水平（A1-B2、C2），并对大学来源文本进行了匿名化处理，采用XML格式存储，附带39项元数据。

文件详解

文件名称：20230505_CELEN_shareable.xml
文件格式：XML
字段映射介绍：
文档结构：每篇文本以开头、结尾，包含39项元数据（具体元数据内容需参考项目说明）
文本标记：段落用段落内容标记；WordReference论坛文本中，``标记原生西班牙语使用者的回复位置
匿名化处理：大学来源文本中的人名替换为#Nombre-mujer#等标签，电话、邮箱等身份信息已修改

数据来源

CELEN项目（https://sites.google.com/view/celen）

适用场景

西班牙语二语习得研究：分析日语学习者在不同水平（A1-C2）的语言产出特征、错误类型及发展规律
语言教学资源开发：基于真实学习者语料设计针对性的西班牙语教学材料和练习
语料库语言学研究：探究日语背景学习者西班牙语使用的词汇、句法和语用特点
二语写作能力评估：构建学习者写作水平标注数据集，支持自动评分模型训练
跨语言对比分析：对比不同学习场景（专业课程、外语课程、论坛）下的学习者语言表现差异

数据与资源

7900047.zipZIP
7.50 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	7.5 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？