孟加拉语维基百科文本数据集

孟加拉语维基百科文本数据集 数据来源:互联网公开数据
标签:孟加拉语,维基百科,文本数据,自然语言处理,机器学习,语言模型,文本挖掘

数据概述:
本数据集是孟加拉语维基百科文本的子集,基于2019年6月10日的维基百科抓取数据构建。数据集经过处理,去除了HTML标签,并提取了每篇文章的正文内容作为样本文本。数据集包含70,377个样本,总字数为18,229,481个,共包含1,289,249个唯一词汇,约占总词汇量的7%。

数据用途概述:
该数据集适用于孟加拉语自然语言处理任务的研究与开发,包括但不限于语言模型训练、文本分类、文本摘要、关键词提取等场景。研究人员可利用此数据集进行语言特征分析、语义理解模型开发以及机器学习模型训练。此外,该数据集还可用于孟加拉语文本挖掘任务,为相关领域的学术研究和工业应用提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 21:37 (UTC)
创建于 四月 23, 2025, 21:28 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。