数据集概述
本数据集是一个精心整理的孟加拉语和英语文本集合,包含2485条来自KUET Whispers在线社区的匿名提交。每条记录均为简短、匿名且富含情感的低语式文本片段,反映了用户在非正式场景下的自然低语交流。数据集提供原始文本和清洗后版本,并附带时间戳、匿名发送者标签、帖子互动数据(点赞、评论)及语言标签等元数据。
文件详解
- whispers_Bangla.csv
- 文件格式:CSV
- 字段映射介绍:包含post no(帖子编号)、text(原始文本)、cleaned_text(清洗后文本)、likes(点赞数)、comments(评论数)、sender(匿名发送者)、time(时间戳)、url(来源链接)、language(语言标签)等字段。
- whispers_eng.csv
- 文件格式:CSV
- 字段映射介绍:字段结构与whispers_Bangla.csv一致,专门存储英语低语文本内容。
- whispers.csv
- 文件格式:CSV
- 字段映射介绍:为综合数据集文件,包含孟加拉语和英语的全部低语文本记录,字段结构与前述文件相同。
数据来源
KUET Whispers在线社区
适用场景
- 情感与情绪分类:分析低语文本中的情感倾向和情绪表达模式。
- 低语文本规范化:研究非正式低语文本的清洗、标准化和预处理方法。
- 社交互动建模:基于点赞、评论等元数据,分析用户参与度和社交行为特征。
- 低资源文本数据研究:为孟加拉语和英语的低资源自然语言处理任务提供训练和测试数据。