伦巴第语命名实体识别与语言训练数据集

伦巴第语命名实体识别与语言训练数据集 数据来源:互联网公开数据 标签:伦巴第语,命名实体识别,NER,语言模型,文本处理,自然语言处理,维基百科,WikiANN,语言训练,文本标注

数据概述: 本数据集是基于WikiANN项目构建的伦巴第语(Lombard)文本数据集,用于命名实体识别(NER)和语言模型训练。 数据集来源于维基百科文章,并已进行标注,包含LOC(地点)、PER(人物)、ORG(组织)三种类型的命名实体,采用IOB2格式进行标注。 数据集包含训练集(pdc_train.csv)、验证集(sr_validation.csv)和测试集(uz_train.csv),其中每个文件包含以下字段:

tokens:伦巴第语中的单个单词或标记。 ner_tags:与每个标记相关的命名实体识别(NER)标签。 langs:指示每个标记的语言,在本数据集中特指伦巴第语。 spans:提供每个标记在文本中的位置或跨度信息。 数据由wikiann项目提供,并托管在Huggingface平台。

数据用途概述: 该数据集主要用于以下几个方面:

命名实体识别(NER)模型训练:通过ner_tags字段,可以训练模型来识别和分类伦巴第语文本中的命名实体,如人名、地名、组织机构等。 语言分类模型训练:虽然langs字段在本数据集中始终为伦巴第语,但该数据可用于训练语言分类模型,以识别给定的文本是否为伦巴第语。 文本跨度分析:spans字段提供了文本中每个标记的位置信息,可用于开发需要分析伦巴第语文本中特定跨度的算法或应用程序,例如识别重要短语或从较长文档中提取特定部分。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 80.49 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。