数据集概述
本数据集为基于SNIK医疗信息管理本体的问答系统相关数据,包含问答操作所用数据、训练问题及按问题类型通过特定指标完成的评估结果,涉及CSV、JSON、NT三种格式共12个文件,可用于SNIK本体问答系统的训练与性能分析。
文件详解
- CSV文件(共8个)
- 部分文件名称:textbook-av.csv、fragenklassifikation.csv、generated-withtb.csv、textbook-withtb.csv、generated.csv、textbook.csv、formulierung_sparql_bb_textbuchfragen.csv
- 字段示例:textbook-av.csv含“Anzahl Trainingsfragen(训练问题数量)、Confidence(置信度)、Precision(精确率)、Recall(召回率)、F-Score(F值)”字段;generated.csv含相同评估指标字段
- JSON文件(共3个)
- 文件名称:bb_fragen_train.json、generated_training.json、demo_uploaded_training_pairs.json
- 结构示例:bb_fragen_train.json为数组格式,每个元素含“question(问题)、sparql(查询语句)、language(语言)、id(编号)”字段
- NT文件(共1个)
- 文件名称:snikmetabb.nt
- 格式说明:NT格式文件,推测为SNIK本体相关的元数据或知识图谱数据
适用场景
- 医疗信息管理本体问答系统开发: 通过训练问题与评估数据优化SNIK本体问答系统性能
- 语义问答模型评估: 利用精确率、召回率等指标分析不同训练数据量对问答模型的影响
- 医疗信息知识图谱应用研究: 基于SNIK本体数据探索医疗信息领域知识的自然语言交互方式
- 问答系统跨语言适配分析: 结合多语言问题数据研究医疗信息问答的语言适配策略