KUET_Whispers_孟加拉语英语匿名低语文本数据集

数据集概述

本数据集是一个精心整理的孟加拉语和英语文本集合,包含2485条来自KUET Whispers在线社区的匿名提交。每条记录均为简短、匿名且富含情感的低语式文本片段,反映了用户在非正式场景下的自然低语交流。数据集提供原始文本和清洗后版本,并附带时间戳、匿名发送者标签、帖子互动数据(点赞、评论)及语言标签等元数据。

文件详解

  • whispers_Bangla.csv
  • 文件格式:CSV
  • 字段映射介绍:包含post no(帖子编号)、text(原始文本)、cleaned_text(清洗后文本)、likes(点赞数)、comments(评论数)、sender(匿名发送者)、time(时间戳)、url(来源链接)、language(语言标签)等字段。
  • whispers_eng.csv
  • 文件格式:CSV
  • 字段映射介绍:字段结构与whispers_Bangla.csv一致,专门存储英语低语文本内容。
  • whispers.csv
  • 文件格式:CSV
  • 字段映射介绍:为综合数据集文件,包含孟加拉语和英语的全部低语文本记录,字段结构与前述文件相同。

数据来源

KUET Whispers在线社区

适用场景

  • 情感与情绪分类:分析低语文本中的情感倾向和情绪表达模式。
  • 低语文本规范化:研究非正式低语文本的清洗、标准化和预处理方法。
  • 社交互动建模:基于点赞、评论等元数据,分析用户参与度和社交行为特征。
  • 低资源文本数据研究:为孟加拉语和英语的低资源自然语言处理任务提供训练和测试数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.41 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。