数据集

Elsevier生物CADDIE2016数据集检索挑战赛数据与代码

数据集概述

本数据集包含Elsevier DataSearch团队参与2016年生物CADDIE数据集检索挑战赛的相关数据与代码，涵盖检索系统构建、查询处理、词典创建等模块的实现文件，支持生物医学数据集检索任务的复现与分析。

文件详解

该数据集包含多个文件和压缩包，具体说明如下： - 参赛提交文件： - elsevier-submission.zip：压缩包，包含elsevier[1-5].txt，对应论文中描述的五次运行提交结果 - elsevier-solr.zip：Java项目压缩包，包含用于Solr的自定义Token Filter，实现概念ID与关联词汇的同位置索引 - 检索系统配置文件： - Dictionary.xml：Aspire配置文件，用于加载MeSH、基因等词典以识别文本中的概念 - QueryAnalyzer.xml：Aspire配置文件，接收查询并识别其中的概念，返回概念信息响应 - ProcessJSON.xml：Aspire配置文件，处理JSON文档（扁平化元数据、识别MeSH和基因概念并嵌入文本、准备Solr索引） - ProcessJsonSimple.xml：Aspire配置文件，用于将已处理的JSON文档直接发送至Solr，无需重复处理 - Biocaddie.qpl：Solr查询处理文件，向Aspire的QueryAnalyzer.xml发送请求，解析响应并构建Lucene查询 - 词典创建脚本： - MeSH.groovy：Groovy脚本，将ASCII格式的MeSH词典转换为Aspire可用的词典格式 - Genes.groovy：Groovy脚本，将基因词典转换为Aspire可用的词典格式 - 辅助工具压缩包： - biocaddie-infosys-master_files.zip：包含SolrQueryGen（生成Solr查询）、JudgementUI（人工判断界面）、NLP4J（自然语言解析）等辅助工具

数据来源

Elsevier DataSearch团队

适用场景

生物医学信息检索研究：复现生物CADDIE挑战赛的检索系统，分析不同检索策略的效果
文本挖掘与概念识别：研究MeSH、基因等生物医学概念在检索中的应用
信息检索系统开发：参考Aspire与Solr的集成方案，构建领域特定的检索系统
自然语言处理应用：利用NLP4J等工具进行生物医学文本的分词、词形还原等预处理
检索评估工具开发：基于JudgementUI设计生物医学检索结果的人工评估界面

数据与资源

zd9dxpyybg-1.zipZIP
4.60 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	4.6 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。