斯洛文尼亚开放科学文档元数据数据集

数据集概述

本数据集包含斯洛文尼亚公共领域学术文档的元数据条目,涵盖本科及研究生论文、研究与专业文章等多种类型。数据来自斯洛文尼亚多个独立图书馆系统,经去重合并后形成统一元数据方案,包含标题、关键词、摘要、类型、作者、年份等属性,支持文本挖掘与内容推荐系统开发。

文件详解

数据集包含CSV和JSON两种格式的结构化数据文件及说明文档,具体如下: - CSV格式文件(位于CSV/目录下): - OpenscienceMetadata.csv:主元数据文件,字段以竖线分隔,包含文档标题、关键词、摘要、类型、作者、年份、URL、UDC等属性。 - OpenScienceMetadataTypology.csv:文档类型元数据文件。 - OpenScienceMetadataAuthors.csv:作者元数据文件。 - OpenScienceMetadataOrganizations.csv:机构元数据文件。 - README.txt:说明文档,提示CSV文件字段使用竖线分隔。 - JSON格式文件(位于JSON/目录下): - OpenScienceMetadata.json:主元数据文件,JSON格式。 - OpenScienceMetadataTypology.json:文档类型元数据文件。 - OpenScienceMetadataAuthors.json:作者元数据文件。 - OpenScienceMetadataOrganizations.json:机构元数据文件。

适用场景

  • 文本挖掘研究:用于学术文档的关键词提取、主题建模等文本分析任务。
  • 文本分类开发:可作为训练集,构建学术文档类型、主题分类模型。
  • 推荐系统开发:支持基于内容的学术文档推荐系统的开发与性能基准测试。
  • 学术资源分析:用于分析斯洛文尼亚学术产出的类型分布、时间趋势及机构合作网络。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 195.3 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。