找到5个数据集

分类: 公开数据 标签: NER

过滤结果
  • Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

    2026年1月26日 30 153 99

    数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
    packageimg
  • Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

    2026年1月23日 30 58 50

    数据集概述 本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。 文件详解 location_mnemonics.xlsx...
    packageimg
  • Social_Work_Scopus_Based_2016_2024研究SDGs及世界区域关系数据

    2026年1月6日 30 77 56

    数据集概述 本数据集包含2016至2024年Scopus收录的社会工作相关研究文献,通过特定检索条件筛选获取。数据补充了每项研究与可持续发展目标(SDGs)的关联关系(由Aurora-SDG分类器模型生成)及与世界区域的关联关系(由SpaCy NER库分析生成)。数据集仅包含一个文件。 文件详解...
    packageimg
  • PPORTAL_Annotated_Portuguese_Literary_Entities_NER语料库

    2025年12月31日 30 38 23

    数据集概述 本数据集为葡萄牙文学实体标注语料库,适配巴西和葡萄牙文学文本,包含PER、LOC、GPE、ORG、DATE五类实体标注。语料源自25部不同作者与风格的文学作品,含125,059个标记和5,266个标注实体,用于支持葡萄牙语NER模型开发及文学领域探索。 文件详解 文件名称:pportal-selective.json 文件格式:JSON...
    packageimg
  • 现代藏文报纸命名实体识别数据集_标注集与指南

    2025年12月9日 30 144 84

    数据集概述 本数据集包含现代藏文报纸命名实体识别(NER)的标注集、指南及训练数据,聚焦中国境内当代藏文媒体文本。涵盖17类实体标签、经人工审核的训练数据及原始标注文件,为藏文NER模型开发提供基础资源。 文件详解 标注规范文件: NER for Modern Tibetan-tagset and...
    packageimg