Elsevier生物CADDIE2016数据集检索挑战赛数据与代码

数据集概述

本数据集包含Elsevier DataSearch团队参与2016年生物CADDIE数据集检索挑战赛的相关数据与代码,涵盖检索系统构建、查询处理、词典创建等模块的实现文件,支持生物医学数据集检索任务的复现与分析。

文件详解

该数据集包含多个文件和压缩包,具体说明如下: - 参赛提交文件: - elsevier-submission.zip:压缩包,包含elsevier[1-5].txt,对应论文中描述的五次运行提交结果 - elsevier-solr.zip:Java项目压缩包,包含用于Solr的自定义Token Filter,实现概念ID与关联词汇的同位置索引 - 检索系统配置文件: - Dictionary.xml:Aspire配置文件,用于加载MeSH、基因等词典以识别文本中的概念 - QueryAnalyzer.xml:Aspire配置文件,接收查询并识别其中的概念,返回概念信息响应 - ProcessJSON.xml:Aspire配置文件,处理JSON文档(扁平化元数据、识别MeSH和基因概念并嵌入文本、准备Solr索引) - ProcessJsonSimple.xml:Aspire配置文件,用于将已处理的JSON文档直接发送至Solr,无需重复处理 - Biocaddie.qpl:Solr查询处理文件,向Aspire的QueryAnalyzer.xml发送请求,解析响应并构建Lucene查询 - 词典创建脚本: - MeSH.groovy:Groovy脚本,将ASCII格式的MeSH词典转换为Aspire可用的词典格式 - Genes.groovy:Groovy脚本,将基因词典转换为Aspire可用的词典格式 - 辅助工具压缩包: - biocaddie-infosys-master_files.zip:包含SolrQueryGen(生成Solr查询)、JudgementUI(人工判断界面)、NLP4J(自然语言解析)等辅助工具

数据来源

Elsevier DataSearch团队

适用场景

  • 生物医学信息检索研究:复现生物CADDIE挑战赛的检索系统,分析不同检索策略的效果
  • 文本挖掘与概念识别:研究MeSH、基因等生物医学概念在检索中的应用
  • 信息检索系统开发:参考Aspire与Solr的集成方案,构建领域特定的检索系统
  • 自然语言处理应用:利用NLP4J等工具进行生物医学文本的分词、词形还原等预处理
  • 检索评估工具开发:基于JudgementUI设计生物医学检索结果的人工评估界面
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.6 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。