找到8个数据集

标签: 文档ID

过滤结果
  • PEQQS_Based_科学文献数量型问答检索全流程评估数据集

    2026年2月9日 30 106 3

    数据集概述 本数据集聚焦科学文献中的数量型抽取式问答场景,包含1031篇农业科学摘要的数量答案标注,以及基于39个查询的1130条查询-文档相关性判断。数据集支持信息检索与问答模块的端到端评估,可用于研究检索质量对下游问答结果的影响,尤其是大语言模型处理无关文档时的幻觉问题。 文件详解 quantities_ground_truth.json...
    packageimg
  • LAGT_Based_多源整合古希腊文本语料库_v4_1

    2026年1月30日 30 192 113

    数据集概述 本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of...
    packageimg
  • ACL_cite_Based_学术句子引用价值预测标注数据集

    2026年1月29日 30 191 46

    数据集概述 本数据集为NAACL 2021论文配套的ACL-cite数据集,包含从ACL Anthology学术文献中提取的270余万句学术文本,及对应句子是否需要引用的标注标签,用于研究上下文对句子引用价值预测的作用。数据集含三个CSV文件,按文档ID划分训练、验证和测试集。 文件详解 压缩包文件 文件名称:ACL-cite.zip 文件格式:ZIP...
    packageimg
  • Global_Stocktake_Based全球气候行动进展多语言机器学习分析数据

    2026年1月15日 30 34 23

    数据集概述 本数据集为《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》一文的配套数据,包含全球盘点气候行动相关的文本嵌入、文档项、主题关键词及段落、降维嵌入和元数据概述,支持气候变化领域的多语言文本分析研究。...
    packageimg
  • DUDE_Competition_Based_ICDAR2023文档理解竞赛训练验证测试集真值标注数据

    2026年1月3日 30 108 60

    数据集概述 本数据集为ICDAR 2023 DUDE竞赛提供训练、验证和测试集的真值标注,包含41454条标注数据,覆盖4974份文档。数据分为训练集、验证集和测试集,测试集为盲测集(无真值答案),已去除重复数据。 文件详解 文件名称:2023-03-23_DUDE_gt_test_PUBLIC.json 文件格式:JSON 字段映射介绍:...
    packageimg
  • 俄语词义消歧语料库_RuSemCor

    2025年12月23日 30 70 42

    数据集概述 该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。 文件详解 文件名称: sense_annotations.tsv 文件格式: TSV (.tsv) 字段映射:...
    packageimg
  • 西班牙语医学语义索引开发数据集

    2025年12月18日 30 80 16

    数据集概述 该数据集为西班牙语医学语义索引(MESINESP)开发集,含七百五十条经人工标注的医学文献记录,标注使用DeCS编码(西班牙语版MeSH术语),每条记录至少由两名索引员标注并达成共识,可用于医学语义索引相关研究。 文件详解 压缩文件: mesinesp-development-set.zip,格式为ZIP,包含两个开发子集 官方开发集:...
    packageimg
  • MedCodER医学编码生成式AI助手数据集

    2025年12月15日 30 47 35

    数据集概述 该数据集为MedCodER生成式AI医学编码助手项目提供支持,包含医疗记录文本、诊断编码及相关辅助文件,用于训练和验证AI模型的医学编码能力,为医疗编码自动化研究提供数据基础。 文件详解 数据文件(CSV格式): text.csv:包含文档ID、医疗记录文本及ACI文档ID的测试集数据文件...
    packageimg