数据集概述
本数据集包含Elsevier DataSearch团队参与2016年生物CADDIE数据集检索挑战赛的相关数据与代码,涵盖检索系统构建、查询处理、词典创建等模块的实现文件,支持生物医学数据集检索任务的复现与分析。
文件详解
该数据集包含多个文件和压缩包,具体说明如下:
- 参赛提交文件:
- elsevier-submission.zip:压缩包,包含elsevier[1-5].txt,对应论文中描述的五次运行提交结果
- elsevier-solr.zip:Java项目压缩包,包含用于Solr的自定义Token Filter,实现概念ID与关联词汇的同位置索引
- 检索系统配置文件:
- Dictionary.xml:Aspire配置文件,用于加载MeSH、基因等词典以识别文本中的概念
- QueryAnalyzer.xml:Aspire配置文件,接收查询并识别其中的概念,返回概念信息响应
- ProcessJSON.xml:Aspire配置文件,处理JSON文档(扁平化元数据、识别MeSH和基因概念并嵌入文本、准备Solr索引)
- ProcessJsonSimple.xml:Aspire配置文件,用于将已处理的JSON文档直接发送至Solr,无需重复处理
- Biocaddie.qpl:Solr查询处理文件,向Aspire的QueryAnalyzer.xml发送请求,解析响应并构建Lucene查询
- 词典创建脚本:
- MeSH.groovy:Groovy脚本,将ASCII格式的MeSH词典转换为Aspire可用的词典格式
- Genes.groovy:Groovy脚本,将基因词典转换为Aspire可用的词典格式
- 辅助工具压缩包:
- biocaddie-infosys-master_files.zip:包含SolrQueryGen(生成Solr查询)、JudgementUI(人工判断界面)、NLP4J(自然语言解析)等辅助工具
数据来源
Elsevier DataSearch团队
适用场景
- 生物医学信息检索研究:复现生物CADDIE挑战赛的检索系统,分析不同检索策略的效果
- 文本挖掘与概念识别:研究MeSH、基因等生物医学概念在检索中的应用
- 信息检索系统开发:参考Aspire与Solr的集成方案,构建领域特定的检索系统
- 自然语言处理应用:利用NLP4J等工具进行生物医学文本的分词、词形还原等预处理
- 检索评估工具开发:基于JudgementUI设计生物医学检索结果的人工评估界面