-
CLEF_Shared_Task_2024_议会辩论意识形态与权力识别测试数据集
2026年1月15日 30 70 44
数据集概述 本数据集为2024年CLEF议会辩论意识形态与权力识别共享任务的测试集,内容选自ParlaMint语料库(4.0版)的议会演讲文本。数据格式与训练集一致,但未包含标签信息,仅用于任务测试阶段的模型评估,包含1个压缩文件。 文件详解 文件名称:ideology-power-st-testset.zip 文件格式:ZIP...
-
MEDDOPROF_Test_Set_西班牙语临床病例职业信息检测共享任务测试数据
2026年1月15日 30 22 9
数据集概述 本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。 文件详解...
-
IR_Lab_Shared_Task_2024_2025冬季学期信息检索课程数据集
2026年1月15日 30 76 6
数据集概述 本数据集为2024/2025冬季学期科隆、耶拿、卡塞尔三校信息检索课程的共享任务资源,包含基于ir_datasets和TIREx的实验数据,涵盖文档语料、主题、运行结果及相关性判断等,支持课程实践中的系统开发与分析。 文件详解 训练输入文件 文件名称:subsampled-ms-marco-deep-...
-
加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集
2025年12月13日 30 116 77
数据集概述 本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。 文件详解 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...
-
PAN23多作者写作风格分析数据集
2025年12月7日 30 149 96
数据集概述 该数据集是PAN@CLEF2023多作者写作风格分析共享任务的专用数据,包含三个难度级别的文档集,用于训练和测试段落级风格变化检测算法,文档均为英文且风格变化仅发生在段落间。 文件详解 文件名称: pan23-multi-author-analysis.zip 文件格式: ZIP压缩包 包含内容:...



