数据集

伦巴第语命名实体识别与语言训练数据集

伦巴第语命名实体识别与语言训练数据集数据来源：互联网公开数据标签：伦巴第语,命名实体识别,NER,语言模型,文本处理,自然语言处理,维基百科,WikiANN,语言训练,文本标注

数据概述：本数据集是基于WikiANN项目构建的伦巴第语（Lombard）文本数据集，用于命名实体识别（NER）和语言模型训练。数据集来源于维基百科文章，并已进行标注，包含LOC（地点）、PER（人物）、ORG（组织）三种类型的命名实体，采用IOB2格式进行标注。数据集包含训练集（pdc_train.csv）、验证集（sr_validation.csv）和测试集（uz_train.csv），其中每个文件包含以下字段：

tokens：伦巴第语中的单个单词或标记。 ner_tags：与每个标记相关的命名实体识别（NER）标签。 langs：指示每个标记的语言，在本数据集中特指伦巴第语。 spans：提供每个标记在文本中的位置或跨度信息。数据由wikiann项目提供，并托管在Huggingface平台。

数据用途概述：该数据集主要用于以下几个方面：

命名实体识别（NER）模型训练：通过ner_tags字段，可以训练模型来识别和分类伦巴第语文本中的命名实体，如人名、地名、组织机构等。语言分类模型训练：虽然langs字段在本数据集中始终为伦巴第语，但该数据可用于训练语言分类模型，以识别给定的文本是否为伦巴第语。文本跨度分析：spans字段提供了文本中每个标记的位置信息，可用于开发需要分析伦巴第语文本中特定跨度的算法或应用程序，例如识别重要短语或从较长文档中提取特定部分。

数据与资源

伦巴第语命名实体识别与语言训练数据集.zipZIP
80.49 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	80.49 MiB
最后更新	2025年4月17日
创建于	2025年4月17日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

伦巴第语命名实体识别与语言训练数据集

数据与资源

附加信息

注册成功！