数据集概述
该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。
文件详解
数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下:
- 压缩包文件:
- legalnero.zip: 数据集主压缩包,包含所有子文件夹及文件
- BRAT格式标注文件(.ann):
- ann_LEGAL_PER_LOC_ORG_TIME_overlap: 含法律引用、人物、地点、组织、时间实体标注,允许组织和时间实体在法律引用内重叠标注
- ann_FGLEGAL_PER_LOC_ORG_TIME_overlap: 含细粒度法律引用(如法律、条例等)及上述实体标注,允许重叠标注
- ann_LEGAL_PER_LOC_ORG_TIME: 含法律引用及上述实体标注,不允许重叠标注(仅标注最长实体)
- ann_FGLEGAL_PER_LOC_ORG_TIME: 含细粒度法律引用及上述实体标注,不允许重叠标注
- ann_PER_LOC_ORG_TIME: 含人物、地点、组织、时间实体标注,无重叠标注
- CoNLL-U Plus格式文件(.conllup):
- conllup_LEGAL_PER_LOC_ORG_TIME: 含法律引用及上述实体标注,不允许重叠标注,部分地点含GEONAMES编码
- conllup_FGLEGAL_PER_LOC_ORG_TIME: 含细粒度法律引用及上述实体标注,不允许重叠标注,部分地点含GEONAMES编码
- conllup_PER_LOC_ORG_TIME: 含人物、地点、组织、时间实体标注,不允许重叠标注,部分地点含GEONAMES编码
- RDF格式文件:
- rdf: 含RDF-Turtle格式的语义网络数据,提供跨文件的实体关联
- 原始文本文件:
- text: 包含所有标注对应的原始法律文本
- 数据划分文件:
- splits_FGLEGAL_PER_LOC_ORG_TIME.tsv: 细粒度实体类别的训练/验证/测试集划分建议(训练集占比约70%,验证集和测试集各占约15%)
适用场景
- 法律文本信息抽取研究: 用于训练罗马尼亚法律领域命名实体识别模型
- 语义网络构建: 基于RDF数据构建法律领域知识图谱
- 法律资源检索优化: 提升法律文献中实体信息的检索精度
- 多格式标注数据对比: 研究不同标注格式(BRAT、CoNLL-U Plus)对模型训练的影响
- 细粒度法律实体分析: 支持法律文献类型(如法律、条例等)的专项研究