数据集

印度马拉地语新闻标题清理数据集

印度马拉地语新闻标题清理数据集数据来源：互联网公开数据标签：马拉地语,新闻标题,文本清理,数据处理,自然语言处理,SKlearn,分词,文本分析

数据概述：本数据集包含约12000条经过清理的马拉地语新闻文章标题，源自iNLTK原始数据集。清理步骤包括罗马化、规范化、去除重复项及使用Indic-NLP-库进行简单分词，并将阿拉伯数字转换为梵文字母数字，同时剔除非梵文字母文本。原始数据集中发现的重复项已记录在errors.csv和errors_cleaned.csv中。由于原始数据集没有单独的验证集，导致难以与基线结果（报告了验证准确率）进行比较，因此这里提供的分割是通过SKlearn进行分层划分的。

数据用途概述：该数据集适用于马拉地语新闻标题的文本分析、情感分析、主题建模等多种场景。研究人员可以利用此数据集进行自然语言处理任务，如分词、命名实体识别等；媒体机构可以使用数据进行新闻内容分类和分析；教育工作者可以将其作为教学资源，帮助学生掌握马拉地语新闻标题的处理技巧。

数据与资源

印度马拉地语新闻标题清理数据集.zipZIP
0.42 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.42 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

印度马拉地语新闻标题清理数据集

数据与资源

附加信息

注册成功！