社交媒体情感分析与仇恨言论检测数据集SocialMediaSentimentAnalysisandHateSpeechDetectionDataset-mahathibodela
数据来源:互联网公开数据
标签:情感分析, 仇恨言论检测, 社交媒体, 文本分类, 多标签分类, 西班牙语, 文本标注, 自然语言处理
数据概述:
该数据集包含来自社交媒体平台的数据,记录了西班牙语推文,并标注了情感类别和仇恨言论属性。主要特征如下:
时间跨度:数据未标明具体时间,视作静态文本语料数据集使用。
地理范围:数据主要来源于西班牙语社交媒体环境。
数据维度:数据集包含推文的ID、文本内容(tweet)、情感类别(emotion)和仇恨言论标签(offensive)。情感类别可能包含多种情感,仇恨言论标签则指示推文中是否存在冒犯性内容。
数据格式:数据集包含多种格式,包括XML、CSV和TSV。其中,CSV文件“emoevent_es.csv”提供了结构化的数据示例,包含“id”、“tweet”、“emotion”、“offensive”字段。
来源信息:数据来源于公开的社交媒体数据,并经过标注处理。
该数据集适合用于情感分析、仇恨言论检测等自然语言处理任务。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于情感分析、仇恨言论检测、多标签文本分类等领域的研究,以及跨语言情感分析的探索。
行业应用:可以为社交媒体监控、舆情分析、内容审核等行业提供数据支持,特别是在识别和过滤负面情绪、仇恨言论方面。
决策支持:支持社交媒体平台的风险管理,帮助识别和处理有害内容,维护社区健康。
教育和培训:作为自然语言处理、文本挖掘等课程的实训数据,帮助学生和研究人员深入理解情感分析与仇恨言论检测。
此数据集特别适合用于探索西班牙语社交媒体文本的情感表达模式和仇恨言论的识别方法,帮助用户构建情感分析模型和仇恨言论检测系统。