Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023

数据集概述

本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据,包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型,适用于低资源语言情感分析研究。

文件详解

  • 情感标注数据文件
  • 文件名称:sentiment_eval_data.json
  • 文件格式:JSON
  • 字段映射介绍:包含四种语言的对齐情感标注数据,具体字段未提供预览
  • 词嵌入文件
  • 文件名称:vectors.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:包含文本格式的Gensim风格词嵌入向量
  • 代码文件
  • 文件名称:code.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:包含与数据集相关的代码文件
  • 模型文件
  • 文件名称:models.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:包含情感分析模型文件

数据来源

论文“Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages”(Alnajjar, K., Hämäläinen, M., & Rueter, J, 2023)

适用场景

  • 低资源语言情感分析研究:用于厄尔兹亚语等四种乌拉尔语系语言的情感分析模型训练与评估
  • 词嵌入应用研究:基于提供的词嵌入向量开展低资源语言语义表示相关实验
  • 自然语言处理模型开发:利用代码和模型文件复现或扩展低资源语言情感分析方法
  • 乌拉尔语系语言资源建设:补充低资源语言情感分析领域的标注数据资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 93.41 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。