数据集

孟加拉语文本噪声标注数据集-情感分析应用-2024

孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源：互联网公开数据标签：孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学数据概述：本数据集为多标签数据集，旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注，标注可信度达到90%。Fleiss' Kappa得分为0.69，表明标注者之间具有较好的一致性。数据集包含多个噪声类别，定义如下：

地方词汇（Local Word）：包含任何地方性词汇，即使存在拼写错误。
词语误用（Word Misuse）：错误使用词语或不必要的词语重复。
语境/词语缺失（Context/Word Missing）：信息不足或词语缺失。
语序错误（Wrong Serial）：词语顺序错误。
混合语言（Mixed Language）：使用其他语言的词语。长期被孟加拉语吸收的外来词除外。
标点错误（Punctuation Error）：标点符号使用不当或缺失。不以“।"结尾的句子被排除在此类别。
空格错误（Spacing Error）：空格使用不当。
拼写错误（Spelling Error）：不符合孟加拉语学院词典拼写的词语。
自造词（Coined Word）：表情符号、符号表情、链接。
其他（Others）：不属于上述任何类别的噪声。

数据集统计信息（按噪声类别）：

| 类别 | 实例数 | 每实例平均词数 | | :- | : | :- | | 地方词汇 | 2,084 (0.136%) | 16.05 | | 词语误用 | 661 (0.043%) | 18.55 | | 语境/词语缺失 | 550 (0.036%) | 13.19 | | 语序错误 | 69 (0.005%) | 15.30 | | 混合语言 | 6,267 (0.410%) | 17.91 | | 标点错误 | 5,988 (0.391%) | 17.25 | | 空格错误 | 2,456 (0.161%) | 18.78 | | 拼写错误 | 5,817 (0.380%) | 17.30 | | 自造词 | 549 (0.036%) | 15.45 | | 其他 | 1,263 (0.083%) | 16.52 |

数据用途概述：该数据集主要用于孟加拉语文本情感分析中噪声的识别和处理，也可用于其他自然语言处理任务，例如文本清洗、噪声检测、语言模型训练等。研究人员可以使用该数据集来开发和评估各种噪声消除方法，提高孟加拉语情感分析系统的性能。

数据与资源

孟加拉语文本噪声标注数据集-情感分析应用-2024.zipZIP
0.76 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.76 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

孟加拉语文本噪声标注数据集-情感分析应用-2024

数据与资源

附加信息

注册成功！