-
SciExpeM_Based_能源燃料研究论文数据_2014
数据集概述 本数据集关联Zhang等人2014年发表于《Energy & Fuels》的研究论文,包含1个XML格式的元数据文件,记录论文相关的实验数据信息,由SciExpeM平台提供,可用于能源燃料领域的研究参考。 文件详解 文件名称:10.5281/zenodo.7794900.xml 文件格式:XML...
-
NCOMMS_25_07426_Based_文档数据_无时间
数据集概述 本数据集包含一个与NCOMMS-25-07426相关的Word文档,无额外描述信息。数据集结构简单,仅含单个文档文件,未检测到命名模式、训练测试/数据标签/原始处理等数据划分。 文件详解 文件名称:Word 文档.docx 文件格式:.docx 字段映射介绍:未提供文件内容预览,无法获取具体字段信息,仅可确认文件类型为Word文档。...
-
Allergy_evaluations_患者特征检测与建议数据
数据集概述 本数据集围绕过敏评估展开,包含患者特征、评估时机、检测项目及建议等核心内容,通过一份文档呈现相关信息,为过敏诊疗相关研究提供结构化参考。 文件详解 文件名称:Table 2.docx 文件格式:DOCX...
-
Supplementary_material_通用补充材料数据
数据集概述 本数据集包含一份补充材料文件,主要用于提供相关主题的辅助性数据支持。数据以单一文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型统一为.xlsx格式。 文件详解 文件名称:Supplementary material.xlsx 文件格式:XLSX 字段映射介绍:未提供文件内容预览,无法获取具体字段信息。 适用场景...
-
PMC_OA_Based_神经疾病生物医学文献表格识别基准数据集
数据集概述 本数据集包含来自1164篇PMC开放获取(OA)神经疾病相关文献的1650个表格,采用国际文档分析与识别会议(ICDAR)格式结构化。同时提供分类CSV文件,将表格分为简单、复杂、极复杂三类。数据集共863个文件,以XML格式为主,支持生物医学文献表格识别任务的基准测试。 文件详解 XML文件(862个)...
-
Fu_PusH_DFG_人文社科数字化出版专家访谈单条陈述数据集
数据集概述 本数据集为DFG项目Fu-PusH的研究成果,包含人文社科领域数字化出版主题的专家访谈单条陈述数据。数据集通过匿名化处理保留核心内容,涵盖超过三千条带元数据的陈述,可用于分析该领域数字化出版的专家观点与趋势。 文件详解 文件名称:statements.json 文件格式:JSON...
-
Wikidata_Based_政治家_企业家_商人RDF转储数据
数据集概述 本数据集是通过wdumper工具生成的Wikidata RDF转储,包含政治家、企业家、商人三类实体的结构化数据,涵盖实体信息、陈述及三元组关系,可用于知识图谱构建与语义分析。 文件详解 info.json 文件格式:JSON...
-
PetroGeoNER_Based_石油地质命名实体识别实验数据
数据集概述 本数据集为石油地质领域命名实体识别任务(PetroGeoNER)的实验数据,包含训练、开发、测试三种用途的文件,核心用于支持石油地质专业文本中命名实体的识别模型训练与评估,共3个JSON格式文件。 文件详解 文件名称:petrogeoner_train02.json 文件格式:JSON...
-
Wikidata_Dump_Paclitaxel药物RDF转储数据
数据集概述 本数据集为Wikidata中Paclitaxel药物相关的RDF转储数据,由wdumper工具生成。包含实体、陈述及三元组信息,共四个文件,涵盖数据规格、元信息、预览及压缩数据等内容,可用于生物医药领域的药物信息分析与研究。 文件详解 info.json 文件格式:JSON...
-
Wikidata_Based_Wikidata_RDF格式数据转储
数据集概述 本数据集是通过wdumps工具生成的Wikidata的RDF格式转储数据,包含实体、陈述和三元组等信息的结构化存储,共包含4个文件,支持对Wikidata知识图谱数据的分析与应用。 文件详解 配置与元数据文件 文件名称:info.json 文件格式:JSON...
-
SURel_Based_德语词汇同步语义相关性判断数据集_2021
数据集概述 本数据集包含德语词汇使用对的同步语义相关性判断,涵盖通用语言和烹饪领域场景。数据旨在为术语提取中融入词义变化提供基准,支持语义分析相关研究。版本为3.0.0,发布于2021年12月15日。 文件详解 文件名称:surel.zip 文件格式:ZIP...
-
CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据
数据集概述 本数据集为西班牙循证医学临床试验语料库(CT-EBM-SP),包含一千二百篇西班牙语临床试验相关文本(共二十九万二千一百七十三个词元),涵盖五百篇期刊摘要及七百篇临床试验公告,标注有解剖学、药理化学物质等四类医学实体,适用于医学自然语言处理研究。 文件详解 文件名称:CT-EBM-SP.zip 文件格式:ZIP...
-
Kleptotrace_Based_金融腐败实体抽取微型基准数据集
数据集概述 本数据集为微型基准数据集,包含15篇聚焦金融腐败主题的文章(共441句),以及文章中提及的个人和组织列表各1份,用于评估基于大语言模型的实体抽取流程。 文件详解 文件名称:Dataset-org.json 文件格式:JSON 字段映射介绍:包含金融腐败主题文章的文本内容,以及从中提取的个人列表和组织列表两类实体信息 数据来源...
-
CS_Based_计算机科学项目描述学习维度识别研究数据_2022
数据集概述 本数据集基于CS Track数据库的94个英文项目描述,通过定性内容分析识别其中的学习维度。采用Phillips等人2018年模型的修改版作为编码框架,由两名研究者独立编码为8个主类别、21个子类别,提取高频关键词,揭示不同学习维度的体现程度差异。 文件详解 Dataset_Analysis Intended Educational...
-
Wikidata_Fathers_Based全量站点RDF转储数据
数据集概述 本数据集为Wikidata Fathers的全量站点RDF转储数据,由wdumper工具生成,包含2个文件。数据涵盖Wikidata的站点链接、标签、陈述、实体等核心语义信息,可用于Wikidata知识图谱的相关研究与应用开发。 文件详解 文件名称:wdumper-spec.json 文件格式:JSON...
-
Legal_NLP_Based_法律自然语言处理系统映射研究原始数据
数据集概述 本数据集为法律自然语言处理(Legal NLP)领域的系统映射研究原始数据,涵盖所有处理及收录的论文信息、信息提取内容、研究各环节步骤记录,以及研究者分工评审信息,为该领域学术研究提供结构化原始资料。 文件详解 文件名称:SystematicMappingStudyLegalNLP.xlsx 文件格式:XLSX...
-
IN02088_Sanskrit_Epidoc格式石刻铭文XML数据
数据集概述 本数据集为IN02088 Thimi石刻铭文的梵语XML文件,采用Epidoc格式初稿,不含元数据,计划纳入"Siddham"档案。数据记录了该石刻铭文的数字化文本内容,是梵语铭文文献研究的基础资料。 文件详解 文件名称:IN02088.xml 文件格式:XML...
-
AffRoDB_Based_机构字符串到ROR标识符映射数据集2024
数据集概述 本数据集是AffRoDB,包含从Crossref提取的原始机构隶属关系字符串与Research Organization Registry(ROR)标识符的人工整理映射。每条记录经专家评估,包含出版物DOI、原始机构字符串、专家判断及最终ROR ID,基于2024年1月ROR数据库版本构建,用于机构隶属关系消歧方法的评估与基准测试。...
-
UU15755_Based_荷兰联省共和国及省份法令集第八卷_1795
数据集概述 本数据集为荷兰法令集第八卷(Groot placaet-boeck Volume 8)的转录数据,收录了荷兰联省共和国、荷兰与西弗里西亚省、泽兰省的法令、条例及敕令,由Johannes Allart于1795年在阿姆斯特丹出版。数据基于荷兰国家图书馆馆藏副本转录,包含原始法令文本及相关元信息。 文件详解 文件名称:UU15755.zip...
-
罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据
数据集概述 本数据集为2023年生成,基于2022年从MEDLINE(科学文献)和Event Registry(新闻)收集的数据,支持罕见病挖掘项目。包含16种罕见病的人工标注文献,涉及科学论文和新闻文章的标注及分类器评估数据,用于相关研究论文的开发。 文件详解 JSON文件 文件名称:preproc2-input-...



