巴西葡萄牙语情感词典数据集-antoniomenezes
数据来源:互联网公开数据
标签:葡萄牙语,情感分析,社交网络,巴西,语言学,数据集,同义词,脏话,文本处理
数据概述:
本数据集旨在为巴西葡萄牙语的情感分析提供资源支持,特别适用于处理和分析巴西的社交媒体数据,帮助解释巴西社会网络中的现象。数据集包含多个文件,覆盖了情感词典、同义词关系及脏话列表,为研究者提供了全面的情感分类工具。
数据集包含以下文件:
1. words_emotions_ptBR.csv:共779行数据,每行包含一个单词及其与六种基本情绪(愤怒、厌恶、愉悦、恐惧、悲伤、惊讶)的关系(1表示有关系,0表示无关系)。
2. synonyms_emotions_ptBR.csv:共5562行数据,每行包含一个单词及其同义词,以及每个单词和同义词与六种基本情绪的关系(1表示有关系,0表示无关系)。
3. words_synonyms_ptBR.csv:共5562行数据,每行包含一个单词及其同义词。
4. words_bad_language_ptBR.csv:共257行数据,每行包含一个脏话单词。
数据来源于马丁佐萨的论文(https://www.ppgia.pucpr.br/pt/arquivos/mestrado/dissertacoes/2010/barbara_martinazzo_versaofinal.pdf)和 Rocha Pombo 编著的《巴西葡萄牙语同义词词典》(http://www.academia.org.br/sites/default/files/publicacoes/arquivos/cams-10-dicionario_de_sinonimos_da_lingua_portuguesa-para_internet.pdf)。
数据用途概述:
该数据集适用于巴西葡萄牙语的情感分析、文本处理、社交媒体研究等多个领域。研究者可以利用此数据集进行情感分类、同义词关系研究、脏话过滤等任务。教育者和开发者可以将其应用于自然语言处理课程或开发相关工具。此外,该数据还能为社会学家和政策制定者提供有价值的数据支持,帮助他们更好地理解巴西社会网络中的情感动态和语言特点。