BioSample_Based_LLM自动标注评估数据集

本数据集用于评估大语言模型（LLMs）对BioSample数据的自动标注能力，包含细胞系本体映射和基因名称提取两类任务的测试数据、金标准及模型输出结果，支持生物样本数据自动化处理的模型性能验证与分析。

细胞系本体映射相关文件
biosample_cellosaurus_mapping_gold_standard.tsv（TSV格式）：人工创建的细胞系本体映射金标准文件，用于评估映射结果的准确性。
biosample_cellosaurus_mapping_testset.json（JSON格式）：通过EBI BioSamples API收集的细胞系本体映射任务测试数据。
biosample_cellosaurus_mapping_result_llm_assisted.tsv（TSV格式）：LLM辅助流程生成的细胞系本体映射结果文件，包含映射术语ID、标签及正确性判断等字段。
biosample_cellosaurus_mapping_result_metasra.tsv（TSV格式）：直接使用MetaSRA流程生成的细胞系本体映射结果文件，字段包括BioSample ID、实验类型、映射术语及正确性等。
基因名称提取相关文件
biosample_gene_extraction_testset.json（JSON格式）：通过EBI BioSamples API收集的基因名称提取任务测试数据。
biosample_gene_extraction_result.tsv（TSV格式）：LLM辅助流程生成的基因名称提取结果文件，包含提取的基因、方法及正确性判断等字段。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	16.45 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。