数据集概述
本数据集通过众包方式对Open IE 4和MinIE两款开放信息抽取工具的结果进行标注,评估其在科学与医学文本上的有效性。数据基于维基百科随机句子和OA-STM语料库随机句子构建,包含原始数据、处理代码、实验文件及分析代码等。
文件详解
该数据集包含2个目录和11个文件,具体说明如下:
- 代码目录(code for applying open information extraction tools/):
- ProcessOpenIE.scala:Scala格式的开放信息抽取工具处理代码
- build.properties:属性配置文件
- build.sbt:SBT构建配置文件
- 数据目录(data/):
- randomSentOACopora.py:Python格式的OA语料库随机句子生成代码
- oa_200randsents.txt:TXT格式的OA语料库200条随机句子原始文本
- quickwikiminieextract.py:Python格式的维基百科MinIE抽取代码
- 核心结果文件:
- triple-annotate-results-proc-20180214.csv:CSV格式的三元组标注结果处理文件,包含Worker1至Worker9的标注数据、同意度等字段
- aggregated_results_anon.csv:CSV格式的匿名聚合结果文件,包含AssignmentId、Choice、Condition、WorkTimeInSeconds等字段
- hittest-20171108-publicexperiment.zip:ZIP格式的公开实验压缩包
- AnalysisAnnotationResults.ipynb:Jupyter Notebook格式的标注结果分析代码
- labelling-instructions-final.pdf:PDF格式的最终标注说明文档
适用场景
- 自然语言处理研究:评估开放信息抽取工具在专业领域文本上的性能
- 科学文本挖掘:探索医学、科学文本的信息抽取方法优化方向
- 众包标注研究:分析众包标注在技术评估中的应用效果
- 开放信息抽取工具开发:为工具改进提供真实场景的标注数据支持