数据集

科学与医学文本开放信息抽取评估数据集

数据集概述

本数据集通过众包方式对Open IE 4和MinIE两款开放信息抽取工具的结果进行标注，评估其在科学与医学文本上的有效性。数据基于维基百科随机句子和OA-STM语料库随机句子构建，包含原始数据、处理代码、实验文件及分析代码等。

文件详解

该数据集包含2个目录和11个文件，具体说明如下： - 代码目录（code for applying open information extraction tools/）： - ProcessOpenIE.scala：Scala格式的开放信息抽取工具处理代码 - build.properties：属性配置文件 - build.sbt：SBT构建配置文件 - 数据目录（data/）： - randomSentOACopora.py：Python格式的OA语料库随机句子生成代码 - oa_200randsents.txt：TXT格式的OA语料库200条随机句子原始文本 - quickwikiminieextract.py：Python格式的维基百科MinIE抽取代码 - 核心结果文件： - triple-annotate-results-proc-20180214.csv：CSV格式的三元组标注结果处理文件，包含Worker1至Worker9的标注数据、同意度等字段 - aggregated_results_anon.csv：CSV格式的匿名聚合结果文件，包含AssignmentId、Choice、Condition、WorkTimeInSeconds等字段 - hittest-20171108-publicexperiment.zip：ZIP格式的公开实验压缩包 - AnalysisAnnotationResults.ipynb：Jupyter Notebook格式的标注结果分析代码 - labelling-instructions-final.pdf：PDF格式的最终标注说明文档

适用场景

自然语言处理研究：评估开放信息抽取工具在专业领域文本上的性能
科学文本挖掘：探索医学、科学文本的信息抽取方法优化方向
众包标注研究：分析众包标注在技术评估中的应用效果
开放信息抽取工具开发：为工具改进提供真实场景的标注数据支持

数据与资源

6m5dyx4b58-2.zipZIP
0.49 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.49 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。