文件格式持久标识符研究数据集

数据集概述

该数据集包含与论文《Persistent Identifiers for File Formats: enabling preservation and re-use of research data》相关的预印本、主数据文件、匿名评审意见、文件识别工具测试结果(含截图和文本)及XQuery命令文件,为研究文件格式持久标识符提供支持。

文件详解

  • 核心研究文件:
  • PIDs4fileFormats-PhilipsonJ.pdf:论文预印本(PDF格式)
  • fileformatRecognizer.csv:主数据集(CSV格式),含工具、文件URL、扩展名、MIME类型等字段
  • fileformatRecognizer.xlsx:主数据集(Excel格式),内容与CSV文件一致
  • 评审文件:
  • ReviewsPIDs4fileFormats.odt:匿名评审意见(ODT格式)
  • 工具测试结果:
  • JHOVErepLOCbdf.txt、JHOVErepURLbdf.txt:JHOVE工具测试结果(TXT格式)
  • mimeFetcherBDFdownload.JPG等7个JPG文件:文件识别工具截图
  • 命令文件:
  • mimeFetcher.xq:BaseX的XQuery命令文件,用于获取文件MIME类型

适用场景

  • 数字保存研究:分析文件格式持久标识符对研究数据保存与复用的作用
  • 文件识别技术评估:研究不同工具(如JHOVE)在文件格式识别中的表现
  • 学术出版透明性研究:探讨匿名评审意见对论文发表的影响
  • 数据管理实践:测试获取文件MIME类型的技术方法与工具应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.33 MiB
最后更新 2025年12月25日
创建于 2025年12月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。