数据集概述
本数据集为《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》一文的配套数据,包含全球盘点气候行动相关的文本嵌入、文档项、主题关键词及段落、降维嵌入和元数据概述,支持气候变化领域的多语言文本分析研究。
文件详解
- 压缩文件
- 文件名称:docs.zip、embeddings.zip
- 文件格式:ZIP
- 内容说明:docs.zip包含关联文档项;embeddings.zip包含嵌入数据(含pickle文件)
- CSV文件
- 文件名称:overview.csv
- 文件格式:CSV(UTF-8编码)
- 字段映射:包含author(作者)、author_is_party(是否为缔约方作者)、date(日期)、doc_id(文档ID)、md5_sum(MD5值)、name(名称)、family_id(系列ID)、source_url(来源URL)、variant(变体)、language(语言)、types(类型)、version(版本)等元数据字段
- 文件名称:74_reduced_embeddings_per_para_report.csv
- 文件格式:CSV(UTF-8编码)
- 字段映射:包含document_md5(文档MD5值)、paragraph_id(段落ID)、paragraph(段落文本)、language(语言)、x/y(降维坐标)、topic_nr(主题编号)等字段
- Excel文件
- 文件名称:74_representative_docs_per_topic_report_named.xlsx
- 文件格式:XLSX
- 内容说明:包含最终模型中每个主题最相关的关键词和段落
数据来源
论文《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》
适用场景
- 气候变化文本分析: 利用多语言文档数据研究全球气候行动进展的文本特征与趋势
- 机器学习模型验证: 基于嵌入数据和降维结果,验证气候领域多语言文本模型的性能
- 主题聚类研究: 通过主题关键词及段落数据,分析全球气候行动相关文本的主题分布
- 元数据统计分析: 借助overview.csv的元数据,研究气候行动文档的来源、作者构成等特征