KUET_Whispers_孟加拉语英语匿名低语文本数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

KUET_Whispers_孟加拉语英语匿名低语文本数据集

数据集概述

本数据集是一个精心整理的孟加拉语和英语文本集合，包含2485条来自KUET Whispers在线社区的匿名提交。每条记录均为简短、匿名且富含情感的低语式文本片段，反映了用户在非正式场景下的自然低语交流。数据集提供原始文本和清洗后版本，并附带时间戳、匿名发送者标签、帖子互动数据（点赞、评论）及语言标签等元数据。

文件详解

whispers_Bangla.csv
文件格式：CSV
字段映射介绍：包含post no（帖子编号）、text（原始文本）、cleaned_text（清洗后文本）、likes（点赞数）、comments（评论数）、sender（匿名发送者）、time（时间戳）、url（来源链接）、language（语言标签）等字段。
whispers_eng.csv
文件格式：CSV
字段映射介绍：字段结构与whispers_Bangla.csv一致，专门存储英语低语文本内容。
whispers.csv
文件格式：CSV
字段映射介绍：为综合数据集文件，包含孟加拉语和英语的全部低语文本记录，字段结构与前述文件相同。

数据来源

KUET Whispers在线社区

适用场景

情感与情绪分类：分析低语文本中的情感倾向和情绪表达模式。
低语文本规范化：研究非正式低语文本的清洗、标准化和预处理方法。
社交互动建模：基于点赞、评论等元数据，分析用户参与度和社交行为特征。
低资源文本数据研究：为孟加拉语和英语的低资源自然语言处理任务提供训练和测试数据。

数据与资源

zhv9jjv3n6-1.zipZIP
1.41 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.41 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？