-
INNOSETA_Source_行业解决方案数据库2020
数据集概述 本数据集为INNOSETA数据库中的行业解决方案数据,包含一个Excel文件,记录相关行业解决方案的信息,可用于行业解决方案的查询与分析。 文件详解 文件名称:D1.7_Database_INDUSTRY_SOLUTIONS_INNOSETA_(2020).xlsx 文件格式:XLSX...
-
BioASQ_Based_生物医学专家真实需求问答基准数据集
数据集概述 本数据集为BioASQ生物医学问答基准数据集,包含英文问题、标准参考答案及相关材料,反映生物医学专家真实信息需求,兼具挑战性与实用性。数据集融合结构化与非结构化数据,除精确答案外还包含理想答案(摘要形式),适用于问答系统、多文档摘要、信息检索等多任务研究,且随BioASQ挑战赛持续扩展。 文件详解 README文件 文件名称:README...
-
Eclipse_Based_Bug定位HyLoc模型研究数据
数据集概述 本数据集为Eclipse Platform UI项目的Bug定位研究数据,包含论文中提出的HyLoc模型(结合深度神经网络与rVSM信息检索技术)相关的实验数据与元数据,用于解决Bug报告与源代码间的词汇不匹配问题,提升Bug定位准确率。 文件详解 Eclipse_Platform_UI.xlsx 文件格式:XLSX...
-
SciExpeM_Based_燃料研究XML元数据_2020版
数据集概述 本数据集为SciExpeM项目下的燃料研究相关XML元数据,由Lhuillier、Brequigny等作者关联,对应2020年《Fuel》期刊论文(卷263,编号116653),包含一份XML格式的元数据文件,用于记录燃料研究相关的结构化信息。 文件详解 文件名称:10.5281/zenodo.7334962.xml 文件格式:XML...
-
孟加拉语语音识别测试集_重新审视Anwesha扩展金标准数据集
数据集概述 本数据集为孟加拉语信息检索(IR)测试集,扩展了现有黄金标准数据集,包含100个查询-文档相关性对及1000篇文档的新测试集。文档来源于Ebela、Zee News等新闻平台及旅游博客,支持不同复杂度查询的检索性能评估,是孟加拉语IR研究的基础资源。 文件详解 BSE_qrels.json 文件格式:JSON...
-
SUIN_Based哥伦比亚司法法令详细数据1999_2022
数据集概述 本数据集为哥伦比亚司法系统SUIN平台1999至2022年的法律体系法令详细数据,涵盖司法领域的法令信息。数据集以单一文件形式呈现,可用于研究哥伦比亚司法体系的法令内容及演变情况。 文件详解 文件名称:Colombia. Justicia. SUIN. 1999 2022. Ordenamiento Jurídico. Decretos...
-
ZENODO_资料来源_雅加达圣法蒂玛教堂与新月楼_文化遗产文档
数据集概述 本数据集围绕雅加达的GEREJA ST. FATIMA(圣法蒂玛教堂)和CANDRA NAYA(andra Naya)作为文化遗产的主题展开,包含1份文档文件,存储于Zenodo平台,未划分训练/测试、数据/标签或原始/处理子集,文件类型单一为docx格式。 文件详解 文件名称:Zenodo.docx 文件格式:DOCX...
-
Hubbl_Based_医疗EHR实施变更管理应用数据_2017
数据集概述 本数据集记录了Hubbl移动应用在电子健康记录(EHR)"大爆炸"式上线过程中,用于变更管理的相关数据,涵盖用户注册、功能使用、任务完成及信息检索等核心内容,反映应用在EHR实施中的作用。 文件详解 文件名称:HubblData.xlsx 文件格式:XLSX...
-
Crossref_metadata_processed_data
数据集概述 本数据集包含来自Crossref的元数据处理文件,主要用于学术文献相关的元数据管理与分析。数据结构简单,无复杂目录层级,仅包含一个核心文件,未进行训练测试、数据标签或原始加工的拆分,专注于提供结构化的元数据信息。 文件详解 文件名称:metadatakrok3.xlsx 文件格式:XLSX...
-
BPID_Based_个人身份去重基准数据集_EMNLP2024
数据集概述 本数据集为EMNLP 2024论文《BPID: A Benchmark for Personal Identity Deduplication》的配套基准数据,用于个人身份去重任务。数据集以压缩包形式提供,无训练/测试、数据/标签、原始/处理数据的划分,包含1个压缩文件。 文件详解 文件名称:BPID.zip 文件格式:ZIP...
-
Wikidata_Dump_Paclitaxel药物RDF转储数据
数据集概述 本数据集为Wikidata中Paclitaxel药物相关的RDF转储数据,由wdumper工具生成。包含实体、陈述及三元组信息,共四个文件,涵盖数据规格、元信息、预览及压缩数据等内容,可用于生物医药领域的药物信息分析与研究。 文件详解 info.json 文件格式:JSON...
-
Incitefull_IRM_Based_信息检索模型与实验文档集合
数据集概述 本数据集包含5个以DOCX格式存储的文档,主题围绕信息检索模型(IRM)、信息查找模型、信息检索实验及搜索技术展开,还包含一份名为INCITEFUL的文档,为信息检索领域的研究提供基础文档资源。 文件详解 文件名称:INFORMATION RETRIEVAL MODEL.docx 文件格式:DOCX...
-
NLM_Chem_Based_生物医学文献化学实体识别标注语料库与指南
数据集概述 本数据集为NLM-Chem语料库,包含150篇PubMed全文文献,由十位NLM专家索引员双重标注,含约五千个独特化学名称标注及对应约两千个MeSH标识符,用于支持化学实体识别工具的开发与评估,解决现有工具在全文中性能较低的问题,挖掘文献中更详细的化学信息。 文件详解 NLM-Chem-corpus.zip 文件格式:ZIP...
-
Survey_Based_生物数据集搜索偏好排序调查原始结果与分析数据
数据集概述 本数据集包含2018年11月至2019年3月在德国针对26名生物多样性研究学者开展的搜索偏好调查结果,涵盖四个生物多样性研究相关的搜索场景(生物、材料、过程、数据参数),学者基于5点李克特量表进行评分,旨在探究数据集搜索中的语义扩展需求及相关推荐偏好。 文件详解 README.md 文件格式:MD...
-
riie_net_Source_动漫影视基础信息数据集_20200218
数据集概述 本数据集是2020年2月18日从riie.net网站采集的动漫影视数据,包含199条动漫剧集和电影记录,涉及标题、类型、集数、状态、发行日期等13个字段,涵盖多种流派信息,为动漫影视相关研究提供结构化基础数据。 文件详解 数据文件 文件名称:ListAnime.csv 文件格式:CSV...
-
musiXplora_Karl_Frank_f1986_音乐人物档案数据
数据集概述 本数据集为音乐人物Karl Frank(musiXplora-ID: f1986)的结构化档案数据,记录其基本信息、职业领域、活动地点及相关事件等内容,包含一个JSON格式文件,可用于音乐人物研究与档案查询。 文件详解 文件名称:f1986_DE.json 文件格式:JSON...
-
g2208_musiXplora_Otto_Glass_音乐人物档案数据
数据集概述 本数据集为音乐人物Otto Glass(ID:g2208)的结构化档案数据,来自musiXplora平台。包含其基本信息、职业领域、活动地点、首次提及时间等核心内容,以JSON格式存储,支持音乐人物研究与信息检索。 文件详解 文件名称:g2208_DE.json 文件格式:JSON...
-
Acousticbrainz_Based_mIrdata音乐流派数据集索引
数据集概述 本数据集是mIrdata库中用于Acousticbrainz流派数据集的索引文件集合,包含1个压缩文件和1个测试用JSON文件,无目录层级结构。索引文件记录了音乐流派数据的关联信息,涉及tagtraum、lastfm、discogs、allmusic等来源的训练/验证数据,可支持音乐流派分类相关的索引查询与数据管理。 文件详解 压缩索引文件...
-
Spanish_Workers_Statute_Based_双语问答数据集
数据集概述 本数据集为西班牙语劳动法关键文件的双语问答数据集,包含150个问题及其对应答案,答案形式为西班牙《工人法规》130个部分中的条款编号及相关摘录。数据集支持信息检索与问答任务,共包含3个文件。 文件详解 Extracted Terminology of Spanish Worker Statute.txt 文件格式:TXT...
-
Ciência_Vitae_Type_of_financing_受控词汇数据
数据集概述 本数据集为Ciência Vitae平台的资助类型受控词汇数据,包含科研资助类型的标准化分类信息,用于规范学术资源中资助类型的描述与管理。数据集仅包含一个XML格式文件。 文件详解 文件名称:tipoFinanciamento.xml 文件格式:XML...



