数据集概述
本数据集为加纳阿桑特语推文情感标注语料库AsanteTwiSenti,包含九千五百零七条手动标注的推特数据,标注类别涵盖积极、消极、中性、加纳皮钦语、多语言及单语言。数据集共六个文件,支持非洲本土语言情感分析研究,无训练测试或原始处理数据拆分。
文件详解
- 数据文件(共5个)
- 文件名称:TWIcorpus(4).xlsx、combined_tweets.csv、final_all_gh_pidgin_tweets(2).csv、final_all_multilingual_tweets(1).csv、final_all_twi_tweets.xlsx
- 文件格式:CSV(3个)、XLSX(2个)
- 字段映射介绍:包含推文字段(如tweet/tweets列)及标签字段(如labels列),标注类别为Positive、Negative、Neutral、Ghanaian-Pidgin、multilingual、Monolingual
- 代码文件(共1个)
- 文件名称:get_clean_tweets.ipynb
- 文件格式:IPYNB
- 字段映射介绍:用于获取和清洗推文数据的代码文件
数据来源
论文“AsanteTwiSenti: A Sentiment Dataset of Ghanaian Asante Twi Tweets in a Multilingual Context”
适用场景
- 非洲本土语言情感分析模型训练: 用于阿桑特语及加纳皮钦语的情感分类模型开发与评估
- 多语言社交媒体内容研究: 分析加纳多语言推文的语言使用特征与情感表达差异
- 低资源语言NLP资源构建: 补充非洲语言情感标注语料库,支持自然语言处理基础研究
- 社交媒体情感趋势分析: 基于标注数据探究加纳网络空间的公众情绪倾向与话题关联