-
Global_Stocktake_Based全球气候行动进展多语言机器学习分析数据
2026年1月15日 30 94 75
数据集概述 本数据集为《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》一文的配套数据,包含全球盘点气候行动相关的文本嵌入、文档项、主题关键词及段落、降维嵌入和元数据概述,支持气候变化领域的多语言文本分析研究。...
-
DUDE_Competition_Based_ICDAR2023文档理解竞赛训练验证测试集真值标注数据
2026年1月3日 30 78 52
数据集概述 本数据集为ICDAR 2023 DUDE竞赛提供训练、验证和测试集的真值标注,包含41454条标注数据,覆盖4974份文档。数据分为训练集、验证集和测试集,测试集为盲测集(无真值答案),已去除重复数据。 文件详解 文件名称:2023-03-23_DUDE_gt_test_PUBLIC.json 文件格式:JSON 字段映射介绍:...
-
俄语词义消歧语料库_RuSemCor
2025年12月23日 30 151 13
数据集概述 该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。 文件详解 文件名称: sense_annotations.tsv 文件格式: TSV (.tsv) 字段映射:...
-
西班牙语医学语义索引开发数据集
2025年12月18日 30 45 0
数据集概述 该数据集为西班牙语医学语义索引(MESINESP)开发集,含七百五十条经人工标注的医学文献记录,标注使用DeCS编码(西班牙语版MeSH术语),每条记录至少由两名索引员标注并达成共识,可用于医学语义索引相关研究。 文件详解 压缩文件: mesinesp-development-set.zip,格式为ZIP,包含两个开发子集 官方开发集:...
-
MedCodER医学编码生成式AI助手数据集
2025年12月15日 30 82 9
数据集概述 该数据集为MedCodER生成式AI医学编码助手项目提供支持,包含医疗记录文本、诊断编码及相关辅助文件,用于训练和验证AI模型的医学编码能力,为医疗编码自动化研究提供数据基础。 文件详解 数据文件(CSV格式): text.csv:包含文档ID、医疗记录文本及ACI文档ID的测试集数据文件...



