罗马尼亚法律领域命名实体识别数据集

数据集概述

该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。

文件详解

数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip: 数据集主压缩包,包含所有子文件夹及文件 - BRAT格式标注文件(.ann): - ann_LEGAL_PER_LOC_ORG_TIME_overlap: 含法律引用、人物、地点、组织、时间实体标注,允许组织和时间实体在法律引用内重叠标注 - ann_FGLEGAL_PER_LOC_ORG_TIME_overlap: 含细粒度法律引用(如法律、条例等)及上述实体标注,允许重叠标注 - ann_LEGAL_PER_LOC_ORG_TIME: 含法律引用及上述实体标注,不允许重叠标注(仅标注最长实体) - ann_FGLEGAL_PER_LOC_ORG_TIME: 含细粒度法律引用及上述实体标注,不允许重叠标注 - ann_PER_LOC_ORG_TIME: 含人物、地点、组织、时间实体标注,无重叠标注 - CoNLL-U Plus格式文件(.conllup): - conllup_LEGAL_PER_LOC_ORG_TIME: 含法律引用及上述实体标注,不允许重叠标注,部分地点含GEONAMES编码 - conllup_FGLEGAL_PER_LOC_ORG_TIME: 含细粒度法律引用及上述实体标注,不允许重叠标注,部分地点含GEONAMES编码 - conllup_PER_LOC_ORG_TIME: 含人物、地点、组织、时间实体标注,不允许重叠标注,部分地点含GEONAMES编码 - RDF格式文件: - rdf: 含RDF-Turtle格式的语义网络数据,提供跨文件的实体关联 - 原始文本文件: - text: 包含所有标注对应的原始法律文本 - 数据划分文件: - splits_FGLEGAL_PER_LOC_ORG_TIME.tsv: 细粒度实体类别的训练/验证/测试集划分建议(训练集占比约70%,验证集和测试集各占约15%)

适用场景

  • 法律文本信息抽取研究: 用于训练罗马尼亚法律领域命名实体识别模型
  • 语义网络构建: 基于RDF数据构建法律领域知识图谱
  • 法律资源检索优化: 提升法律文献中实体信息的检索精度
  • 多格式标注数据对比: 研究不同标注格式(BRAT、CoNLL-U Plus)对模型训练的影响
  • 细粒度法律实体分析: 支持法律文献类型(如法律、条例等)的专项研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 24.55 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。