印度马拉地语新闻标题清理数据集

印度马拉地语新闻标题清理数据集 数据来源:互联网公开数据 标签:马拉地语,新闻标题,文本清理,数据处理,自然语言处理,SKlearn,分词,文本分析

数据概述: 本数据集包含约12000条经过清理的马拉地语新闻文章标题,源自iNLTK原始数据集。清理步骤包括罗马化、规范化、去除重复项及使用Indic-NLP-库进行简单分词,并将阿拉伯数字转换为梵文字母数字,同时剔除非梵文字母文本。原始数据集中发现的重复项已记录在errors.csv和errors_cleaned.csv中。由于原始数据集没有单独的验证集,导致难以与基线结果(报告了验证准确率)进行比较,因此这里提供的分割是通过SKlearn进行分层划分的。

数据用途概述: 该数据集适用于马拉地语新闻标题的文本分析、情感分析、主题建模等多种场景。研究人员可以利用此数据集进行自然语言处理任务,如分词、命名实体识别等;媒体机构可以使用数据进行新闻内容分类和分析;教育工作者可以将其作为教学资源,帮助学生掌握马拉地语新闻标题的处理技巧。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.42 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。