找到4个数据集

分类: 公开数据 标签: NER模型

过滤结果
  • NER_Tutorial_Maschinelles_Lernen_数字文学机器学习NER教程训练数据

    2026年1月4日 30 33 30

    数据集概述 本数据集是NER教程“数字文学中的机器学习”所需的全部数据,包含模型训练用的信件分析相关文件,支持NER模型的训练与测试。数据集共5个文件,覆盖文本、表格、文档等多种格式,为数字文学领域的机器学习任务提供基础数据支持。 文件详解 数据文件 文件名称:ner_kernkorpus.txt 文件格式:TXT...
    packageimg
  • 数据19世纪法国商业名录数据集

    2025年12月23日 30 161 153

    数据集概述 该数据集包含1798至1861年间法国商业名录的页面与条目,分为标注数据集(8765条人工修正条目)和未标注数据集(1058196条原始条目),用于评估19世纪法语文档的OCR与NER性能。 文件详解 文件名称: README.md 文件格式: Markdown(.md) 内容: 数据集概述、引用方式、使用许可等说明文档 文件名称:...
    packageimg
  • SoftwareKG_Based_社会科学领域知识图谱完整数据

    2025年12月20日 30 37 15

    数据集概述 该数据集为SoftwareKG知识图谱,包含从PLoS平台51,165篇带“Social Science”标签的文章中提取的133,000余个软件提及信息,通过自动化流程提取并关联缩写与DBpedia,结合文章元数据构建,采用W3C标准RDF/S模型表示。 文件详解 文件名称: ESWC-SoftwareKG.zip 文件格式:...
    packageimg
  • BIOMAT_MONER语料库训练与验证集

    2025年12月13日 30 185 111

    数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...
    packageimg