找到8个数据集

标签: 地点实体

过滤结果
  • 基于卡巴耶扎尔托什语的三语铭文_词级对齐与命名实体开放数据

    2026年2月9日 30 172 38

    数据集概述 本数据集包含Ka'ba-ye Zartošt(ŠKZ)三语铭文的希腊语、中古波斯语、帕提亚语版本的句级与词级对齐语料,以及人工提取的命名实体。语料遵循Huyse(1999)的行编号,对齐由Ugarit工具生成,命名实体含近400个标注为人物、地点或地点衍生物的条目,部分关联维基数据。 文件详解 对齐语料文件 合并文件:alignment-...
    packageimg
  • Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

    2026年1月26日 30 189 164

    数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
    packageimg
  • CoronaCentral_Source_生物医学多类型实体术语列表数据

    2026年1月21日 30 74 64

    数据集概述 本数据集为CoronaCentral系统使用的术语列表,包含基因、药物、冠状病毒蛋白、症状等多种生物医学实体的名称、同义词及标识符,共7个JSON文件,用于支持生物医学领域的实体识别与关联分析。 文件详解...
    packageimg
  • Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

    2026年1月5日 30 111 104

    数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
    packageimg
  • ENHG_TMAMMT_Based_Schwazer_Berglehenbuch采矿文献TEI实体标注数据

    2025年12月30日 30 178 10

    数据集概述 本数据集包含1515年左右的历史采矿文献《Schwazer Berglehenbuch》(TLA Hs. 1587)的TEI标注数据,由因斯布鲁克大学“Text Mining Medieval Mining Texts”项目团队生成,标注实体包括人物、地点、矿山、日期,存储于奥地利蒂罗尔地区档案馆。 文件详解...
    packageimg
  • 皮卡德语标注语料库

    2025年12月20日 30 83 40

    数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
    packageimg
  • 时间感知命名实体识别推特语料库

    2025年12月10日 30 180 178

    数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 罗马尼亚法律领域命名实体识别数据集

    2025年12月5日 30 37 23

    数据集概述 该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。 文件详解 数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip:...
    packageimg