斯洛文尼亚网络文本类型识别数据集-GINCO1-0训练-测试集

斯洛文尼亚网络文本类型识别数据集-GINCO1-0训练-测试集 数据来源:互联网公开数据 标签:文本分类,自然语言处理,语料库,斯洛文尼亚语,网络文本,文本类型识别,机器学习,GINCO 1.0,语料 数据概述: 本数据集是基于斯洛文尼亚网络文本类型识别语料库GINCO 1.0构建的训练集和测试集,按照80:20的比例划分。GINCO 1.0语料库包含了从两个斯洛文尼亚网络语料库中提取的、经过人工标注的网络文本。数据集包含1002篇文本(共478,969个单词),每篇文本都标注了21种不同的文本类型:新闻/报道、公告、研究文章、说明、食谱、征集(如征稿通知)、法律/法规、信息/解释、观点新闻、评论、观点/论证、产品推广、服务推广、邀请、推广、访谈、论坛、书信、散文、摘要/节选列表和其他。

数据用途概述: 该数据集主要用于自动化文本类型识别、文本类型分析以及其他网络语料库研究。研究人员可以利用该数据集训练和评估文本分类模型,用于识别斯洛文尼亚语网络文本的类型。此外,该数据集也适用于多目标分类任务的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.73 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。