印度维基百科文章数据集

印度维基百科文章数据集 数据来源:互联网公开数据
标签:维基百科,印度,自然语言处理,文本挖掘,语言模型,文本数据,机器学习

数据概述:
本数据集包含172,000篇经过清洗的印度维基百科文章,已转换为CSV格式,便于直接作为Pandas DataFrame进行处理。数据集分为训练集(137,800篇文章)和验证集(34,400篇文章),主要用于训练和评估印度语语言模型。该数据集为研究者和开发者提供了丰富的文本资源,支持在印度语自然语言处理领域的研究与应用。

数据用途概述:
该数据集适用于印度语语言模型的训练与评估,支持文本生成、机器翻译、情感分析等任务的研究与开发。此外,数据集还可用于印度语文本挖掘、语义分析、信息抽取等场景,助力学术研究与实际应用中的自然语言处理技术提升。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 149.8 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。