-
WD4P_多标注模式知识图谱链接预测基准数据集
2025年12月18日 30 38 27
数据集概述 该数据集是基于Wikidata构建的多标注模式知识图谱链接预测基准,包含基础三元组(s-p-o)及三种标注模式(t-p-o、s-p-t、t-p-t),由WD50K和FBHE数据集整合而来,适用于知识图谱链接预测任务的模型评估。 文件详解 文件名称:wd4p.zip:压缩格式,包含完整的WD4P基准数据集,涵盖所有四种标注模式的知识图谱数据...
-
法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集
2025年12月15日 30 1 0
数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
-
西班牙语循证医学临床试验语料库3版
2025年12月12日 30 26 20
数据集概述 该数据集是西班牙语的循证医学临床试验语料库(3版),包含一千二百篇文本(二十九万二千一百七十三条词元),涵盖期刊摘要与临床试验公告,标注了医学实体、语义关系等信息,为医学文本分析提供支持。 文件详解 文件名称:CT-EBM-SP-v3.zip 文件格式:ZIP压缩包...
-
火星目标百科全书_月球与行星科学会议标注摘要数据集2015_2016
2025年12月11日 30 186 151
数据集概述 本数据集包含2015年和2016年月球与行星科学会议(LPSC)发表的117篇摘要的标注文本数据,通过Apache Tika工具提取PDF文本,并以brat标注工具格式提供实体与关系注释,支持文本挖掘与信息提取研究。 文件详解 压缩文件:lpsc-annotated.zip(ZIP格式),包含以下目录和文件:...
-
TBGA基因疾病关联生物医学关系抽取数据集
2025年12月7日 30 72 18
数据集概述 该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。 文件详解 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件 训练集文本文件:...
-
PMC_Based_SoftwareKG_PMC_软件知识图谱完整数据
2025年12月6日 30 103 34
数据集概述 本数据集是从PMC开放获取数据集中提取的软件提及知识图谱(SoftwareKG-PMC),以CSV格式压缩包存储。因PDF格式文章未被纳入,涉及的文章总数为三百零三万六千九百一十三篇,为软件相关学术提及的关联分析提供结构化数据支持。 文件详解 文件名称: csv_files.zip 文件格式: ZIP压缩包 内容说明:...



