数据集

印度维基百科文章数据集

印度维基百科文章数据集数据来源：互联网公开数据
标签：维基百科,印度,自然语言处理,文本挖掘,语言模型,文本数据,机器学习

数据概述：
本数据集包含172,000篇经过清洗的印度维基百科文章，已转换为CSV格式，便于直接作为Pandas DataFrame进行处理。数据集分为训练集（137,800篇文章）和验证集（34,400篇文章），主要用于训练和评估印度语语言模型。该数据集为研究者和开发者提供了丰富的文本资源，支持在印度语自然语言处理领域的研究与应用。

数据用途概述：
该数据集适用于印度语语言模型的训练与评估，支持文本生成、机器翻译、情感分析等任务的研究与开发。此外，数据集还可用于印度语文本挖掘、语义分析、信息抽取等场景，助力学术研究与实际应用中的自然语言处理技术提升。

数据与资源

印度维基百科文章数据集.zipZIP
149.80 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	149.8 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

印度维基百科文章数据集

数据与资源

附加信息

注册成功！