-
多语言多领域文本属性数据集
2025年12月22日 30 37 23
数据集概述 该数据集专为真实文档中的词级文本属性识别设计,包含1623张真实文档图像(涵盖法律通知、土地记录等多领域),覆盖8种语言,提供1117716个词级标注,标注类型包括粗体、斜体等文本属性及正常文本。 文件详解 测试集文件:MMTAD-TESTSET.zip,格式为ZIP,包含测试集数据 模型文件:TEXTAR-...
-
时间感知命名实体识别推特语料库
2025年12月10日 30 14 10
数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...



