孟加拉语怀疑性评论数据集-2023-meherunnesashraboni
数据来源:互联网公开数据
标签:孟加拉语,怀疑性评论,社交媒体,文本分析,数据科学,人工审查,数据收集
数据概述:
本数据集包含100,000多条孟加拉语文本数据,分为五个主要部分,涵盖了不同类型的怀疑性评论。其中包括仅孟加拉语文本(12179条非怀疑性,7822条怀疑性)、孟加拉语与英语混合文本(12725条非怀疑性,7219条怀疑性)、具有政治怀疑性内容的文本(167条非怀疑性,132条怀疑性)以及提及用户名的评论(6145条怀疑性,53855条非怀疑性)。每个部分的数据都被整理成Excel文件,统一的字段包括“Detect”(检测结果,标注为“suspicious”或“unsuspicious”)和“Bangla Text”(孟加拉语文本)。数据集的创建过程详见Kaggle链接:https://www.kaggle.com/code/meherunnesashraboni/suspicious。
数据用途概述:
该数据集适用于怀疑性评论识别、社交媒体监控、文本分析和自然语言处理研究等应用场景。研究人员可以利用此数据集训练和评估怀疑性评论检测模型;社交媒体平台可使用数据识别并过滤潜在的有害或不负责任的评论;政策制定者可依据数据制定相关政策,促进健康的信息环境。此外,该数据集也是教学和学习文本分析技术的宝贵资源。