WoLLaI_Mal_Eng_单词级语言识别数据集

数据集概述

本数据集是针对马拉雅拉姆语-英语混合文本的单词级语言识别标注数据,包含一万二千四百零二个句子,标注类别分为马拉雅拉姆语(Mal)、英语(Eng)、混合词(Mix)和其他(Othr)四类,支持自然语言处理领域的语言识别任务研究。

文件详解

该数据集包含三个格式的文件,具体说明如下: - 文件名称: Wollai_Mal_Eng_dataset.xlsx(Excel格式)、Wollai_Mal_Eng_dataset.txt(文本格式)、Wollai_Mal_Eng_dataset.csv(CSV格式) - 共同字段: - Sentence#: 句子编号 - Word: 单词文本 - Language: 语言标注类别(Mal/Eng/Mix/Othr) - 标注规则: - Mal: 马拉雅拉姆语单词 - Eng: 英语单词 - Mix: 马拉雅拉姆语后缀与英语词根组合的混合词 - Othr: 数字、缩写、命名实体等其他类型单词

适用场景

  • 自然语言处理研究: 用于混合文本的单词级语言识别模型训练与评估
  • 计算语言学分析: 分析马拉雅拉姆语-英语混合文本的语言结构特征
  • 多语言文本处理: 支持混合文本的预处理、分词等下游任务
  • 语言资源构建: 补充低资源语言混合文本的标注数据资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.1 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。