找到235个数据集

标签: 命名实体识别

过滤结果
  • Objaverse_FREGIO_Based_多格式媒体数据集分析完整数据

    2025年12月22日 30 81 3

    数据集概述 本数据集包含与FREGIO相关的文件,主要由JPEG格式的图片文件和一个GLB格式的3D模型文件组成,未包含训练/测试、数据/标签或原始/处理的文件划分,无README或内容预览文档。 文件详解 文件名称: thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg 文件格式:...
    packageimg
  • HIPE_2022共享任务命名实体数据集

    2025年12月22日 30 126 40

    数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
    packageimg
  • 皮卡德语标注语料库

    2025年12月20日 30 52 42

    数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
    packageimg
  • SoftwareKG_Based_社会科学领域知识图谱完整数据

    2025年12月20日 30 12 4

    数据集概述 该数据集为SoftwareKG知识图谱,包含从PLoS平台51,165篇带“Social Science”标签的文章中提取的133,000余个软件提及信息,通过自动化流程提取并关联缩写与DBpedia,结合文章元数据构建,采用W3C标准RDF/S模型表示。 文件详解 文件名称: ESWC-SoftwareKG.zip 文件格式:...
    packageimg
  • NERdME_Based_命名实体识别任务完整数据集

    2025年12月20日 0 165 133

    数据集概述 本数据集包含NERdME相关的压缩文件和标注指南文档,为命名实体识别任务提供数据及操作参考,支持相关算法训练或研究分析。 文件详解 文件名称: NERdME.zip 文件格式: ZIP压缩包 内容说明: 包含NERdME相关的原始或处理后的数据文件,具体内容需解压后查看 文件名称:...
    packageimg
  • 公开可用的高质量真实医疗文本数据集

    2025年12月19日 30 151 90

    数据集概述 本数据集包含公开可用的日语医疗文本记录(病程记录),由众包工作者和医生生成,确保隐私安全,采用CC BY-NC 4.0协议授权,为医疗文本相关研究提供高质量数据支持。 文件详解 文件名称: crowd.zip 文件格式: ZIP压缩包 内容说明: 包含九千七百五十六条由众包工作者撰写的模拟病程记录 文件名称:...
    packageimg
  • 帕皮阿门托语医疗环境关键词识别语音转文本数据集

    2025年12月16日 30 192 181

    数据集概述 本数据集为帕皮阿门托语医疗环境下的关键词识别语音转文本研究开发,包含七个类别(六个关键词和一个未知类别)的语音样本,经过滤后共16766个样本,每个样本为一秒钟录音生成的频谱图,用于推动帕皮阿门托语关键词识别研究。 文件详解 文件名称:papiamento_keyword_spotting_dataset.zip...
    packageimg
  • 法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

    2025年12月15日 30 85 34

    数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
    packageimg
  • LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

    2025年12月15日 30 27 19

    数据集概述 该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。 文件详解 核心压缩文件: livingner-...
    packageimg
  • ToxHabits_NER_毒性习惯场景命名实体识别标注数据集

    2025年12月15日 30 29 23

    数据集概述 该数据集是西班牙语临床文本中“毒性习惯”命名实体识别的标注数据,聚焦烟草使用、酒精消费、非法药物使用等实体的检测与分类,含训练集和测试集,为临床及流行病学研究提供标注资源。 文件详解 训练集文件: ToxHabits(ToxNER)_Train_ANNFiles.zip:ZIP格式,包含ToxNER任务的训练集标注文件...
    packageimg
  • test_Based_无来源图片数据基础分析完整数据

    2025年12月15日 30 102 77

    数据集概述 该数据集包含2个.jpg格式的图片文件,无目录结构,未检测到命名模式或数据分割(如训练/测试、数据/标签、原始/处理),无自述文件或内容预览。 文件详解 图片文件: 58615824_p0.jpg: JPG格式,具体内容未提供 background1.jpg: JPG格式,具体内容未提供 适用场景 图片格式或存储结构的基础分析...
    packageimg
  • 海盗规则集_第五周

    2025年12月14日 30 128 101

    数据集概述 该数据集包含与“海盗规则”相关的文件,主要为图片文件(JPEG格式)和一个GLB格式文件,可能用于展示或参考海盗主题的视觉素材与模型。 文件详解 文件名称及格式: 5个JPEG格式图片文件:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg...
    packageimg
  • MedProcNER医疗程序命名实体识别金标准标注数据集

    2025年12月14日 30 102 79

    数据集概述 该数据集是用于西班牙语医疗文档中临床程序信息抽取的金标准标注资源,包含训练集七百五十份文档、测试集二百五十份文档,以及SNOMED CT编码词表、SNOMED CT与MeSH交叉映射文件,还提供九种语言的银标准版本,为医疗程序检测与实体链接任务提供支持。 文件详解 文件名称:...
    packageimg
  • BIOMAT_CellNER语料库训练与验证集

    2025年12月4日 60 206 37

    数据集概述 该数据集包含BIOMAT-CellNER语料库的训练集(七百五十篇文档)和验证集(一百篇文档),聚焦生物材料领域科学文献中细胞实体(细胞类型、细胞系)的命名实体识别标注,支持相关NER模型开发。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称: BIOMAT-CellNER_Train_Set.zip - 文件格式:...
    packageimg
  • BIOMAT_MONER语料库训练与验证集

    2025年12月13日 30 147 32

    数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...
    packageimg
  • MultiCardioNER语料库_临床命名实体识别系统的心脏病学领域多语言适配数据集

    2025年12月13日 30 128 116

    数据集概述 该数据集为MultiCardioNER共享任务语料库,聚焦临床命名实体识别(NER)系统向心脏病学领域的适配。整合DisTEMIST(疾病)、DrugTEMIST(药物)及新标注心脏病临床病例数据,含训练、开发验证与测试集,支持西班牙语疾病识别及多语言药物识别两大任务。 文件详解 文件名称:...
    packageimg
  • COVID_19相关生物医学自然语言处理词典与标注语料库工具包

    2025年12月13日 30 106 25

    数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
    packageimg
  • SocialDisNER西班牙语推文疾病提及标注数据集

    2025年12月12日 30 57 17

    数据集概述 该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。 文件详解 主数据压缩包: SocialDisNER_Data.zip 包含training-...
    packageimg
  • COPIOUS生物多样性文献命名实体标注指南

    2025年12月11日 30 191 43

    数据集概述 本数据集是COPIOUS生物多样性文献命名实体语料库的配套标注指南,明确标注人员对五类实体的标注范围、标注跨度、例外规则及示例说明,为标准化实体标注提供操作依据。 文件详解 文件名称:oo_252228.pdf 文件格式:PDF...
    packageimg
  • MESINESP2西班牙语生物医学语义索引标注语料库

    2025年12月11日 30 10 3

    数据集概述 该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。 文件详解 子任务语料压缩包:...
    packageimg