阿拉伯语YouTube评论情感分析数据集-Khalaya频道2024-farisalahmdi

阿拉伯语YouTube评论情感分析数据集-Khalaya频道2024-farisalahmdi 数据来源:互联网公开数据 标签:YouTube评论,阿拉伯语,情感分析,文本分析,社交媒体,自然语言处理,机器学习,讽刺检测,言语行为识别,内容审核

数据概述: 本数据集包含从特定YouTube频道(“BidonWaraq”,“mmr_sa1”,“POWR-Esports”和“thmanyahPodcasts”)视频中提取的阿拉伯语YouTube评论集合。它为文本分析、情感分析、讽刺检测和言语行为识别等任务提供了丰富的数据来源。每个评论都带有多个特征注释,使其适用于各种自然语言处理(NLP)应用。

数据内容: * title(标题): YouTube视频的标题。 * comment(评论): 在YouTube视频上发布的评论文本。 * video_id(视频ID): YouTube视频的唯一标识符。 * channel_id(频道ID): YouTube频道的唯一标识符。 * sentiment(情感): 评论的情感(例如,积极、中性、消极)。 * sarcasm(讽刺): 一个布尔值,指示评论是否为讽刺。 * speech_act(言语行为): 言语行为的类型(例如,陈述、表达)。 * dangerous(危险): 一个布尔值,指示评论是否包含危险内容。 * sentiment_reasoning(情感推理): 情感注释的解释。 * sarcasm_reasoning(讽刺推理): 讽刺注释的解释。 * speech_act_reasoning(言语行为推理): 言语行为注释的解释。 * channel_name(频道名称): YouTube频道的名称。

数据用途概述: 该数据集可用于: * 情感分析,以了解评论对视频内容的总体情感。 * 讽刺检测,以识别评论中的讽刺言论。 * 言语行为识别,根据评论的交流意图对评论进行分类。 * 危险内容检测,以过滤掉或研究可能包含有害内容的评论。

挑战: 该数据集带来了一些挑战,包括但不限于: * 处理多语言文本,因为评论可能使用不同的语言。 * 理解上下文以进行准确的情感和讽刺检测。 * 处理类别不平衡,尤其是对于讽刺或危险内容等不太常见的注释。

鸣谢: 此数据集由Khalaya收集和注释,旨在促进自然语言处理和机器学习领域的研究和开发。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 7.19 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。