多语言民族数据集MELD

数据集概述

该数据集旨在解决计算语言学和自然语言处理(NLP)中少数民族语言严重代表性不足的问题。包含查克马语、加罗语、马尔马语的音译文本样本,以及标准孟加拉语和英语翻译,共3046条标注句子,适用于语言识别、机器翻译和情感分析等任务。

文件详解

  • 数据文件:
  • Language Dataset- Chakma, Garo, Marma, Standard Bangla & English.xlsx:Excel格式,包含查克马语、加罗语、马尔马语、标准孟加拉语和英语的多语言文本数据,支持NLP任务。
  • Language Dataset- Chakma, Garo, Marma, Standard Bangla & English - Language Dataset- Chakma, Garo, Marma & Standard Bangla-1.csv:CSV格式,提供结构化数据,便于数据分析工具读取。
  • 文档文件:
  • Acknowledgements & Information, about Volunteers.pdf:PDF格式,包含志愿者致谢和相关信息。

适用场景

  • 语言识别模型构建
  • 机器翻译系统开发
  • 情感分析研究
  • 低资源语言计算研究
  • 少数民族语言文化保护
  • 社交媒体文本分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.13 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。