阿拉伯语YouTube评论情感分析数据集-Khalaya频道2024-farisalahmdi
数据来源:互联网公开数据
标签:YouTube评论,阿拉伯语,情感分析,文本分析,社交媒体,自然语言处理,机器学习,讽刺检测,言语行为识别,内容审核
数据概述:
本数据集包含从特定YouTube频道(“BidonWaraq”,“mmr_sa1”,“POWR-Esports”和“thmanyahPodcasts”)视频中提取的阿拉伯语YouTube评论集合。它为文本分析、情感分析、讽刺检测和言语行为识别等任务提供了丰富的数据来源。每个评论都带有多个特征注释,使其适用于各种自然语言处理(NLP)应用。
数据内容:
* title(标题): YouTube视频的标题。
* comment(评论): 在YouTube视频上发布的评论文本。
* video_id(视频ID): YouTube视频的唯一标识符。
* channel_id(频道ID): YouTube频道的唯一标识符。
* sentiment(情感): 评论的情感(例如,积极、中性、消极)。
* sarcasm(讽刺): 一个布尔值,指示评论是否为讽刺。
* speech_act(言语行为): 言语行为的类型(例如,陈述、表达)。
* dangerous(危险): 一个布尔值,指示评论是否包含危险内容。
* sentiment_reasoning(情感推理): 情感注释的解释。
* sarcasm_reasoning(讽刺推理): 讽刺注释的解释。
* speech_act_reasoning(言语行为推理): 言语行为注释的解释。
* channel_name(频道名称): YouTube频道的名称。
数据用途概述:
该数据集可用于:
* 情感分析,以了解评论对视频内容的总体情感。
* 讽刺检测,以识别评论中的讽刺言论。
* 言语行为识别,根据评论的交流意图对评论进行分类。
* 危险内容检测,以过滤掉或研究可能包含有害内容的评论。
挑战:
该数据集带来了一些挑战,包括但不限于:
* 处理多语言文本,因为评论可能使用不同的语言。
* 理解上下文以进行准确的情感和讽刺检测。
* 处理类别不平衡,尤其是对于讽刺或危险内容等不太常见的注释。
鸣谢:
此数据集由Khalaya收集和注释,旨在促进自然语言处理和机器学习领域的研究和开发。