找到7个数据集

标签: 语言模型评估

过滤结果
  • Text2KGBench本体驱动文本生成知识图谱基准数据集

    2025年12月13日 30 76 3

    数据集概述 该数据集是用于评估语言模型在本体引导下从文本生成知识图谱能力的基准,包含Wikidata-TekGen(十个本体、一万三千四百七十四句)和DBpedia-WebNLG(十九个本体、四千八百六十句)两个子数据集,遵循本体约束提取文本事实。 文件详解 数据集以压缩包形式提供,内部结构及内容如下: - 压缩包文件:...
    packageimg
  • GerMedIQ德语医疗问诊问答语料库

    2025年12月12日 30 146 7

    数据集概述 该数据集包含四千五百二十四条德语医疗领域的模拟问答对,源自一百一十六个标准化问诊问题,由三十九名非患者参与者回答。问题提取自十二项基础问诊问卷及EORTC生活质量问卷等工具,同时包含十八个大中小型语言模型生成的零样本合成回答。 文件详解 根目录文件:Jhofenbitzer/GerMedIQ-...
    packageimg
  • DAGI-DAUC-GPT3-5语言模型评估数据集DAGI-DAUC-GPT3-5LanguageModelEvaluationDataset-aleron751

    2025年5月30日 30 140 130

    DAGI-DAUC-GPT3-5语言模型评估数据集DAGI-DAUC-GPT3-5LanguageModelEvaluationDataset-aleron751 数据来源:互联网公开数据 标签:自然语言处理,语言模型,数据集,机器学习,文本生成,模型评估,人工智能,深度学习 数据概述: 该数据集包含来自DAGI-...
    packageimg
  • 大型语言模型多任务理解能力评估数据集MMLU-LLM-Science竞赛适配-peiyuanliu2001

    2025年4月23日 30 193 6

    大型语言模型多任务理解能力评估数据集MMLU-LLM-Science竞赛适配-peiyuanliu2001 数据来源:互联网公开数据 标签:MMLU,多学科,选择题,语言模型,评估,LLM_Science,竞赛,人工智能,NLP 数据概述: 本数据集源自MMLU(Massive Multitask Language...
    packageimg
  • 孟加拉语同义句识别基准语料库数据集

    2025年4月15日 30 91 62

    孟加拉语同义句识别基准语料库数据集 数据来源:互联网公开数据 标签:同义句检测,孟加拉语,语料库,自然语言处理,文本分析,机器学习,语言模型评估 数据概述: 本数据集是一个用于孟加拉语同义句识别的基准语料库,收录了8,787对人工标注的句子对,这些句子对来源于23家报纸头版在四个类别中的内容。该数据集旨在为孟加拉语同义句检测的研究提供全面的基准。...
    packageimg
  • 大型语言模型评估增强数据集

    2025年4月15日 30 182 20

    大型语言模型评估增强数据集 数据来源:互联网公开数据 标签:大型语言模型,评估,安全研究,公平性,偏见,伦理,文化相关性,提示语优化 数据概述: 本数据集是专门用于评估和评估大型语言模型(LLM)的增强版数据集,基于清华大学THU-...
    packageimg
  • 航天多选题数据集

    2025年4月14日 30 29 2

    航天多选题数据集 数据来源:互联网公开数据 标签:航天工程,多选题,语言模型评估,模型比较,领域适应,提示策略,量化水平 数据概述:...
    packageimg