AsanteTwiSenti_Based_加纳阿桑特语推文多语言情感标注数据集

数据集概述

本数据集为加纳阿桑特语推文情感标注语料库AsanteTwiSenti,包含九千五百零七条手动标注的推特数据,标注类别涵盖积极、消极、中性、加纳皮钦语、多语言及单语言。数据集共六个文件,支持非洲本土语言情感分析研究,无训练测试或原始处理数据拆分。

文件详解

  • 数据文件(共5个)
  • 文件名称:TWIcorpus(4).xlsx、combined_tweets.csv、final_all_gh_pidgin_tweets(2).csv、final_all_multilingual_tweets(1).csv、final_all_twi_tweets.xlsx
  • 文件格式:CSV(3个)、XLSX(2个)
  • 字段映射介绍:包含推文字段(如tweet/tweets列)及标签字段(如labels列),标注类别为Positive、Negative、Neutral、Ghanaian-Pidgin、multilingual、Monolingual
  • 代码文件(共1个)
  • 文件名称:get_clean_tweets.ipynb
  • 文件格式:IPYNB
  • 字段映射介绍:用于获取和清洗推文数据的代码文件

数据来源

论文“AsanteTwiSenti: A Sentiment Dataset of Ghanaian Asante Twi Tweets in a Multilingual Context”

适用场景

  • 非洲本土语言情感分析模型训练: 用于阿桑特语及加纳皮钦语的情感分类模型开发与评估
  • 多语言社交媒体内容研究: 分析加纳多语言推文的语言使用特征与情感表达差异
  • 低资源语言NLP资源构建: 补充非洲语言情感标注语料库,支持自然语言处理基础研究
  • 社交媒体情感趋势分析: 基于标注数据探究加纳网络空间的公众情绪倾向与话题关联
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.77 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。