-
AffRoDB_Based_机构字符串到ROR标识符映射数据集2024
数据集概述 本数据集是AffRoDB,包含从Crossref提取的原始机构隶属关系字符串与Research Organization Registry(ROR)标识符的人工整理映射。每条记录经专家评估,包含出版物DOI、原始机构字符串、专家判断及最终ROR ID,基于2024年1月ROR数据库版本构建,用于机构隶属关系消歧方法的评估与基准测试。...
-
UU15755_Based_荷兰联省共和国及省份法令集第八卷_1795
数据集概述 本数据集为荷兰法令集第八卷(Groot placaet-boeck Volume 8)的转录数据,收录了荷兰联省共和国、荷兰与西弗里西亚省、泽兰省的法令、条例及敕令,由Johannes Allart于1795年在阿姆斯特丹出版。数据基于荷兰国家图书馆馆藏副本转录,包含原始法令文本及相关元信息。 文件详解 文件名称:UU15755.zip...
-
罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据
数据集概述 本数据集为2023年生成,基于2022年从MEDLINE(科学文献)和Event Registry(新闻)收集的数据,支持罕见病挖掘项目。包含16种罕见病的人工标注文献,涉及科学论文和新闻文章的标注及分类器评估数据,用于相关研究论文的开发。 文件详解 JSON文件 文件名称:preproc2-input-...
-
ELMTEX_Based_临床报告结构化信息抽取大语言模型微调数据集
数据集概述 本数据集为ELMTEX项目相关论文配套数据,用于大语言模型在结构化临床信息抽取任务中的微调。包含英文和德文两种语言的训练与测试文件,总计四个JSON格式文件,无目录层级结构,文件类型统一为JSON格式。 文件详解 英文训练文件 文件名称:train_en.json 文件格式:JSON 字段映射介绍:用于大语言模型微调的英文临床报告训练数据...
-
Wikidata_Based_新闻标题到知识图谱事件类映射评估数据集
数据集概述 本数据集是基于Wikidata构建的新闻标题到事件类映射语料库,用于支持新闻标题与知识图谱中事件类的关联评估框架研究。数据集包含1个JSON文件,无训练测试、数据标签或原始处理数据的拆分,为新闻事件分类映射任务提供基础数据支持。 文件详解 文件名称:news_event_identication_dataset.json 文件格式:JSON...
-
Webis_Based_Wikipedia科技创新历史数据_2023
数据集概述 本数据集包含从2022年1月1日维基媒体数据转储中提取的维基百科科学和技术类文章的历史部分,通过维基百科分类网络检索文章,结合基于章节标题的启发式方法和分类器提取历史章节,形成一个JSON文件。 文件详解 文件名称:webis-WikiSciTech-23.json 文件格式:JSON...
-
Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版
数据集概述 本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。 文件详解 location_mnemonics.xlsx...
-
Marian_Keyes_Based小说专有名词提取分析数据集2020
数据集概述 本数据集为爱尔兰研究委员会资助的博士论文相关研究成果,分析了Marian Keyes1995-2020年出版的14部小说中的专有名词,包含角色名称等内容。虽结果无统计显著性未纳入最终论文,但可为其他研究者提供角色名称停用词表,支持远读方法分析。 文件详解 文件名称:An analysis of proper nouns in Marian...
-
LiterallyWikidata_Based_知识图谱补全基准数据集
数据集概述 本数据集是从Wikidata和Wikipedia中提取的知识图谱补全基准数据集,重点关注字面量信息,仅包含一个压缩文件,无目录层级结构,未划分训练/测试集、数据/标签集或原始/处理数据集。 文件详解 文件名称:LiterallyWikidata.zip 文件格式:ZIP(压缩包)...
-
IN00620_Traikutaka_grant_year_284数据
数据集概述 本数据集包含Traikutaka grant year 284相关的XML文件,共1个文件,无目录结构,无训练/测试、数据/标签、原始/处理数据的划分,主要文件类型为XML,占比100%。 文件详解 文件名称:IN00620 XML.xml 文件格式:XML 字段映射介绍:XML文件包含Traikutaka grant year...
-
音乐家历史档案数据_v0_0_1_基于约翰_弗雷德里克_格罗塞恩的资料
数据集概述 本数据集为音乐家John Frederick Grosjean(musiXplora-ID:g2489)的传记档案,包含其基本信息、职业领域、活动时间、关联来源及作品集等内容,是研究19世纪乐器制造领域音乐家的基础资料。 文件详解 文件名称:g2489_DE.json 文件格式:JSON...
-
GreetingsFrom_Based历史明信片地址转录数据集2023
数据集概述 本数据集包含500张具有历史意义的明信片背面的地址转录数据,覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth(GT)和手写文本识别(HTR)两种转录版本,用于历史明信片地址信息的提取研究。 文件详解 GreetingsFrom_GT.zip 文件格式:ZIP...
-
Bionomia_加拿大自然博物馆无脊椎动物化石收藏品关联数据_数据包
数据集概述 本数据集为加拿大自然博物馆化石无脊椎动物馆藏的自然历史标本数据,包含与采集者和鉴定者的关联信息。数据由志愿者通过Bionomia平台基于全球生物多样性信息机构(GBIF)聚合的标本数据生成,采用Frictionless Data数据包格式,共包含9个文件,支持生物多样性标本的关联信息分析。 文件详解 数据包描述文件...
-
WP2_SIM_TST_DSB_SSB直接调制光源啁啾性能评估数据_V1
数据集概述 本数据集包含直接调制光源在不同啁啾条件下的性能仿真结果,以及短腔高带宽VCSEL在不同光纤长度下的S参数测量数据,共5个文件,用于评估光源啁啾与光纤色散的相互作用。 文件详解 仿真结果文件 文件名称:WP2_SIM_DSB-SSBperformance_V1.xlsx 文件格式:XLSX...
-
La_Pola_Siero_Based_西班牙地图第5问口语语料文档数据
数据集概述 本数据集包含与“西班牙地图:第5问”相关的西班牙语口语语料文档,语料来源为La Pola Siero地区的口语内容,仅包含一个文档文件,无目录结构或数据划分,主要用于西班牙语口语语料相关的研究与分析。 文件详解 文件名称:Mapa de España.Pregunta5.docx 文件格式:DOCX...
-
Office_Suit_Based_办公软件信息集合_2019_2022
数据集概述 本数据集收集了2019至2022年与办公软件相关的信息,包含4个文件,无目录结构。主要涵盖Microsoft Office、Zoom、Webex等办公软件的版本更新、功能说明等内容,文件类型以文本文档为主,辅以压缩文件。 文件详解 文件名称:Microsoft_Office_2019.txt 文件格式:TXT...
-
Dead_Sea_VOCs_Sampling_Israel_环境监测数据
数据集概述 本数据集包含以色列死海周边陆地及海岸站点采集的挥发性有机物(VOCs)样本数据,涵盖人为源与生物源两类VOCs,由研究团队采样、Donald Blake教授分析,数据已发表于相关学术论文。 文件详解 文件名称:VOCs sampled at the Dead Sea area - Israel.xlsx 文件格式:XLSX...
-
Persian_leopard_Based_伊朗分布与人为死亡率研究数据
数据集概述 本数据集基于波斯豹相关的未发表数据和波斯语灰色文献(含政府报告),涵盖2010年1月至2018年12月伊朗境内波斯豹的分布范围及人为死亡率相关信息,包含2个Excel文件,为濒危波斯豹的保护研究提供支撑。 文件详解 文件名称:Table S1.xlsx 文件格式:XLSX...
-
UN_WOAII_基于联合国第二世界海洋评估报告的海洋相关文献识别数据集
数据集概述 本数据集与论文《Identifying Ocean-Related Literature Using the UN Second World Ocean Assessment...
-
Biografischportaal_nl_荷兰传记文本命名实体识别数据集
数据集概述 本数据集用于荷兰传记文本的命名实体识别,包含六种实体类型(PERSON、LOCATION、ORGANIZATION、DATE、ARTWORK、MISC)的标注。原始数据来源于荷兰传记门户网站,标注文件经人工检查分词和句子拆分,总计包含六个文件。 文件详解...



