-
OER_World_Map_Based开放教育资源世界地图数据
2026年1月29日 30 75 21
数据集概述 本数据集是OER世界地图于2022年4月29日关闭时的CSV和JSON格式数据转储,包含六千六百一十五条元数据记录,使用schema.org词汇描述组织、服务、人员、项目、事件、故事、工具、出版物和政策等九类实体。 文件详解 许可文件 文件名称:LICENSE 文件格式:无扩展名 字段映射介绍:包含数据集的许可信息 JSON格式数据文件...
-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
2026年1月26日 30 200 170
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
-
Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库
2026年1月5日 30 143 88
数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
-
时间感知命名实体识别推特语料库
2025年12月10日 30 172 158
数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
-
罗马尼亚法律领域命名实体识别数据集
2025年12月5日 30 6 3
数据集概述 该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。 文件详解 数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip:...



