数据集概述
本数据集用于评估大语言模型(LLMs)对BioSample数据的自动标注能力,包含细胞系本体映射和基因名称提取两类任务的测试数据、金标准及模型输出结果,支持生物样本数据自动化处理的模型性能验证与分析。
文件详解
- 细胞系本体映射相关文件
biosample_cellosaurus_mapping_gold_standard.tsv(TSV格式):人工创建的细胞系本体映射金标准文件,用于评估映射结果的准确性。
biosample_cellosaurus_mapping_testset.json(JSON格式):通过EBI BioSamples API收集的细胞系本体映射任务测试数据。
biosample_cellosaurus_mapping_result_llm_assisted.tsv(TSV格式):LLM辅助流程生成的细胞系本体映射结果文件,包含映射术语ID、标签及正确性判断等字段。
biosample_cellosaurus_mapping_result_metasra.tsv(TSV格式):直接使用MetaSRA流程生成的细胞系本体映射结果文件,字段包括BioSample ID、实验类型、映射术语及正确性等。
- 基因名称提取相关文件
biosample_gene_extraction_testset.json(JSON格式):通过EBI BioSamples API收集的基因名称提取任务测试数据。
biosample_gene_extraction_result.tsv(TSV格式):LLM辅助流程生成的基因名称提取结果文件,包含提取的基因、方法及正确性判断等字段。
适用场景
- 生物信息学模型评估:用于测试大语言模型在BioSample细胞系本体映射和基因提取任务中的准确性与可靠性。
- 生物样本数据自动化处理:支持生物样本数据自动标注工具的性能验证与优化。
- 生物本体映射研究:为细胞系本体映射算法的开发与改进提供标准化测试数据集。
- 基因名称提取算法优化:用于基因名称提取模型的结果对比与错误分析,推动生物文本挖掘技术发展。