数据集概述
本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据,包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型,适用于低资源语言情感分析研究。
文件详解
- 情感标注数据文件
- 文件名称:sentiment_eval_data.json
- 文件格式:JSON
- 字段映射介绍:包含四种语言的对齐情感标注数据,具体字段未提供预览
- 词嵌入文件
- 文件名称:vectors.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:包含文本格式的Gensim风格词嵌入向量
- 代码文件
- 文件名称:code.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:包含与数据集相关的代码文件
- 模型文件
- 文件名称:models.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:包含情感分析模型文件
数据来源
论文“Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages”(Alnajjar, K., Hämäläinen, M., & Rueter, J, 2023)
适用场景
- 低资源语言情感分析研究:用于厄尔兹亚语等四种乌拉尔语系语言的情感分析模型训练与评估
- 词嵌入应用研究:基于提供的词嵌入向量开展低资源语言语义表示相关实验
- 自然语言处理模型开发:利用代码和模型文件复现或扩展低资源语言情感分析方法
- 乌拉尔语系语言资源建设:补充低资源语言情感分析领域的标注数据资源