孟加拉语文本噪声标注数据集-情感分析应用-2024
数据来源:互联网公开数据
标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学
数据概述:
本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss' Kappa得分为0.69,表明标注者之间具有较好的一致性。数据集包含多个噪声类别,定义如下:
- 地方词汇(Local Word): 包含任何地方性词汇,即使存在拼写错误。
- 词语误用(Word Misuse): 错误使用词语或不必要的词语重复。
- 语境/词语缺失(Context/Word Missing): 信息不足或词语缺失。
- 语序错误(Wrong Serial): 词语顺序错误。
- 混合语言(Mixed Language): 使用其他语言的词语。长期被孟加拉语吸收的外来词除外。
- 标点错误(Punctuation Error): 标点符号使用不当或缺失。不以“।"结尾的句子被排除在此类别。
- 空格错误(Spacing Error): 空格使用不当。
- 拼写错误(Spelling Error): 不符合孟加拉语学院词典拼写的词语。
- 自造词(Coined Word): 表情符号、符号表情、链接。
- 其他(Others): 不属于上述任何类别的噪声。
数据集统计信息(按噪声类别):
| 类别 | 实例数 | 每实例平均词数 |
| :- | : | :- |
| 地方词汇 | 2,084 (0.136%) | 16.05 |
| 词语误用 | 661 (0.043%) | 18.55 |
| 语境/词语缺失 | 550 (0.036%) | 13.19 |
| 语序错误 | 69 (0.005%) | 15.30 |
| 混合语言 | 6,267 (0.410%) | 17.91 |
| 标点错误 | 5,988 (0.391%) | 17.25 |
| 空格错误 | 2,456 (0.161%) | 18.78 |
| 拼写错误 | 5,817 (0.380%) | 17.30 |
| 自造词 | 549 (0.036%) | 15.45 |
| 其他 | 1,263 (0.083%) | 16.52 |
数据用途概述:
该数据集主要用于孟加拉语文本情感分析中噪声的识别和处理,也可用于其他自然语言处理任务,例如文本清洗、噪声检测、语言模型训练等。研究人员可以使用该数据集来开发和评估各种噪声消除方法,提高孟加拉语情感分析系统的性能。