科学与医学文本开放信息抽取评估数据集

数据集概述

本数据集通过众包方式对Open IE 4和MinIE两款开放信息抽取工具的结果进行标注,评估其在科学与医学文本上的有效性。数据基于维基百科随机句子和OA-STM语料库随机句子构建,包含原始数据、处理代码、实验文件及分析代码等。

文件详解

该数据集包含2个目录和11个文件,具体说明如下: - 代码目录(code for applying open information extraction tools/): - ProcessOpenIE.scala:Scala格式的开放信息抽取工具处理代码 - build.properties:属性配置文件 - build.sbt:SBT构建配置文件 - 数据目录(data/): - randomSentOACopora.py:Python格式的OA语料库随机句子生成代码 - oa_200randsents.txt:TXT格式的OA语料库200条随机句子原始文本 - quickwikiminieextract.py:Python格式的维基百科MinIE抽取代码 - 核心结果文件: - triple-annotate-results-proc-20180214.csv:CSV格式的三元组标注结果处理文件,包含Worker1至Worker9的标注数据、同意度等字段 - aggregated_results_anon.csv:CSV格式的匿名聚合结果文件,包含AssignmentId、Choice、Condition、WorkTimeInSeconds等字段 - hittest-20171108-publicexperiment.zip:ZIP格式的公开实验压缩包 - AnalysisAnnotationResults.ipynb:Jupyter Notebook格式的标注结果分析代码 - labelling-instructions-final.pdf:PDF格式的最终标注说明文档

适用场景

  • 自然语言处理研究:评估开放信息抽取工具在专业领域文本上的性能
  • 科学文本挖掘:探索医学、科学文本的信息抽取方法优化方向
  • 众包标注研究:分析众包标注在技术评估中的应用效果
  • 开放信息抽取工具开发:为工具改进提供真实场景的标注数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.49 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。