Global_Stocktake_Based全球气候行动进展多语言机器学习分析数据

数据集概述

本数据集为《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》一文的配套数据,包含全球盘点气候行动相关的文本嵌入、文档项、主题关键词及段落、降维嵌入和元数据概述,支持气候变化领域的多语言文本分析研究。

文件详解

  • 压缩文件
  • 文件名称:docs.zip、embeddings.zip
  • 文件格式:ZIP
  • 内容说明:docs.zip包含关联文档项;embeddings.zip包含嵌入数据(含pickle文件)
  • CSV文件
  • 文件名称:overview.csv
  • 文件格式:CSV(UTF-8编码)
  • 字段映射:包含author(作者)、author_is_party(是否为缔约方作者)、date(日期)、doc_id(文档ID)、md5_sum(MD5值)、name(名称)、family_id(系列ID)、source_url(来源URL)、variant(变体)、language(语言)、types(类型)、version(版本)等元数据字段
  • 文件名称:74_reduced_embeddings_per_para_report.csv
  • 文件格式:CSV(UTF-8编码)
  • 字段映射:包含document_md5(文档MD5值)、paragraph_id(段落ID)、paragraph(段落文本)、language(语言)、x/y(降维坐标)、topic_nr(主题编号)等字段
  • Excel文件
  • 文件名称:74_representative_docs_per_topic_report_named.xlsx
  • 文件格式:XLSX
  • 内容说明:包含最终模型中每个主题最相关的关键词和段落

数据来源

论文《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》

适用场景

  • 气候变化文本分析: 利用多语言文档数据研究全球气候行动进展的文本特征与趋势
  • 机器学习模型验证: 基于嵌入数据和降维结果,验证气候领域多语言文本模型的性能
  • 主题聚类研究: 通过主题关键词及段落数据,分析全球气候行动相关文本的主题分布
  • 元数据统计分析: 借助overview.csv的元数据,研究气候行动文档的来源、作者构成等特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 625.55 MiB
最后更新 2026年1月19日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。