孟加拉语维基百科文本数据集

孟加拉语维基百科文本数据集数据来源：互联网公开数据
标签：孟加拉语,维基百科,文本数据,自然语言处理,机器学习,语言模型,文本挖掘

数据概述：
本数据集是孟加拉语维基百科文本的子集，基于2019年6月10日的维基百科抓取数据构建。数据集经过处理，去除了HTML标签，并提取了每篇文章的正文内容作为样本文本。数据集包含70,377个样本，总字数为18,229,481个，共包含1,289,249个唯一词汇，约占总词汇量的7%。

数据用途概述：
该数据集适用于孟加拉语自然语言处理任务的研究与开发，包括但不限于语言模型训练、文本分类、文本摘要、关键词提取等场景。研究人员可利用此数据集进行语言特征分析、语义理解模型开发以及机器学习模型训练。此外，该数据集还可用于孟加拉语文本挖掘任务，为相关领域的学术研究和工业应用提供数据支持。

数据与资源

字段	值
版本	1.0
数据集大小	64.62 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。