数据集 - 海数据

基于卡巴耶扎尔托什语的三语铭文_词级对齐与命名实体开放数据

2026年2月9日 30 172 38

数据集概述本数据集包含Ka'ba-ye Zartošt（ŠKZ）三语铭文的希腊语、中古波斯语、帕提亚语版本的句级与词级对齐语料，以及人工提取的命名实体。语料遵循Huyse（1999）的行编号，对齐由Ugarit工具生成，命名实体含近400个标注为人物、地点或地点衍生物的条目，部分关联维基数据。文件详解对齐语料文件合并文件：alignment-...

ZIP

Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

2026年1月26日 30 189 164

数据集概述本数据集包含Gado2命名实体处理应用的手写文本识别（HTR）标注数据，覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题，光学字符识别（OCR）错误率较高，而HTR将字符错误率（CER）降至0.5%以下，提升了命名实体识别（NER）效率。数据集含41个文件，包括无错误的全标注文件及印尼实体知识库。文件详解...

ZIP

CoronaCentral_Source_生物医学多类型实体术语列表数据

2026年1月21日 30 74 64

数据集概述本数据集为CoronaCentral系统使用的术语列表，包含基因、药物、冠状病毒蛋白、症状等多种生物医学实体的名称、同义词及标识符，共7个JSON文件，用于支持生物医学领域的实体识别与关联分析。文件详解...

ZIP

Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

2026年1月5日 30 111 104

数据集概述本数据集为Nerwip语料库，包含408篇维基百科传记文章，人工标注了日期、地点、组织、人物四类实体，用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件，需按说明解压使用。文件详解文件名称：nerwip-4-data.zip 文件格式：ZIP 字段映射介绍：包含408篇标注传记文本及相关数据...

ZIP

ENHG_TMAMMT_Based_Schwazer_Berglehenbuch采矿文献TEI实体标注数据

2025年12月30日 30 178 10

数据集概述本数据集包含1515年左右的历史采矿文献《Schwazer Berglehenbuch》（TLA Hs. 1587）的TEI标注数据，由因斯布鲁克大学“Text Mining Medieval Mining Texts”项目团队生成，标注实体包括人物、地点、矿山、日期，存储于奥地利蒂罗尔地区档案馆。文件详解...

ZIP

皮卡德语标注语料库

2025年12月20日 30 83 40

数据集概述该数据集包含25篇皮卡德语文本，经人工标注词性、词元、法语翻译及地点实体，由法国ANR资助的RESTAURE项目产出，标注流程详见指定学术文章。文件详解文件名称: corpus_picard_restaure.zip（压缩包）文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹（若有）:...

ZIP

时间感知命名实体识别推特语料库

2025年12月10日 30 180 178

数据集概述该数据集为命名实体识别任务开发，包含2014-2019年的12000条标注推特，每年2000条。标注实体类型为地点（LOC）、人物（PER）和组织（ORG），用于研究时间数据漂移对NER模型的影响。文件详解文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包内容说明:...

ZIP

罗马尼亚法律领域命名实体识别数据集

2025年12月5日 30 37 23

数据集概述该数据集是罗马尼亚法律领域的人工标注语料库，包含法律文献中的组织、地点、人物、时间及法律资源实体标注，提供细粒度法律文献类型划分及部分地点的GEONAMES编码，支持多格式访问与语义网络数据应用。文件详解数据集以压缩包形式提供，包含多个子文件夹及文件，具体如下： - 压缩包文件: - legalnero.zip:...

ZIP

找到8个数据集

注册成功！