数据集概述
本数据集包含RELIANCE语料库(从Scigraph选取的地球与环境科学领域文章,附语义元数据)及基于怪异指数的术语分析结果,共2个JSON文件,可用于学术文献语义分析与术语特征研究。
文件详解
- scigraph_corpus_zenodo.json
- 文件格式:JSON
- 字段映射介绍:包含文章的id、title(标题)、abstract(摘要)、categories(分类)、codes(编码)、expertai_metadata(语义元数据,含domain、organizations、people、places、known concepts、concepts、maingroups、mainlemmas、mainsentences)、doi(数字对象标识符)
- reliance_weirdness_filtered.json
- 文件格式:JSON
- 字段映射介绍:包含RELIANCE语料库所有术语,按相对于通用语料库(英国国家语料库)的怪异指数排序
适用场景
- 地球与环境科学文献语义分析: 利用expertai_metadata字段研究文献的领域分类、概念关联与语义特征
- 学术术语怪异指数研究: 通过怪异指数分析专业术语与通用语料的差异,挖掘学科特色词汇
- 文献分类与检索优化: 基于categories、codes等字段优化地球与环境科学文献的分类体系与检索策略
- 科研热点挖掘: 分析concepts、maingroups等语义元数据,识别地球与环境科学领域的研究热点与主题趋势