孟加拉语社交媒体新闻操控识别数据集2023-mozaman36

孟加拉语社交媒体新闻操控识别数据集2023-mozaman36 数据来源:互联网公开数据 标签:孟加拉语,社交媒体,新闻操控,数据集,NLP,信息识别,假新闻检测,计算术语

数据概述: 本数据集包含800条与新闻相关的社交媒体内容,每条内容均被标注为相对于500篇参考新闻文章是否被操控。数据集名为BanMANI,由孟加拉语的社交媒体新闻内容及其对应的参考新闻文章组成,标注内容为信息操控与否。该数据集通过半自动方法(结合人工标注和大语言模型)构建,旨在克服孟加拉语中可用的自然语言处理工具的限制,为其他低资源语言的数据集建设提供参考。

数据用途概述: 该数据集适用于假新闻检测、信息操控识别、NLP系统评估和新模型的训练或微调等场景。研究人员可以利用此数据集评估现有自然语言处理系统的性能,训练或微调新模型以处理新闻操控识别任务。此外,数据集还适用于教学和研究,帮助学习者和研究者理解信息操控的复杂性及其在社交媒体新闻中的影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.78 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。