数据集 - 海数据

Text2KGBench本体驱动文本生成知识图谱基准数据集

2025年12月13日 30 76 3

数据集概述该数据集是用于评估语言模型在本体引导下从文本生成知识图谱能力的基准，包含Wikidata-TekGen（十个本体、一万三千四百七十四句）和DBpedia-WebNLG（十九个本体、四千八百六十句）两个子数据集，遵循本体约束提取文本事实。文件详解数据集以压缩包形式提供，内部结构及内容如下： - 压缩包文件:...

ZIP

GerMedIQ德语医疗问诊问答语料库

2025年12月12日 30 146 7

数据集概述该数据集包含四千五百二十四条德语医疗领域的模拟问答对，源自一百一十六个标准化问诊问题，由三十九名非患者参与者回答。问题提取自十二项基础问诊问卷及EORTC生活质量问卷等工具，同时包含十八个大中小型语言模型生成的零样本合成回答。文件详解根目录文件：Jhofenbitzer/GerMedIQ-...

ZIP

DAGI-DAUC-GPT3-5语言模型评估数据集DAGI-DAUC-GPT3-5LanguageModelEvaluationDataset-aleron751

2025年5月30日 30 140 130

DAGI-DAUC-GPT3-5语言模型评估数据集DAGI-DAUC-GPT3-5LanguageModelEvaluationDataset-aleron751 数据来源：互联网公开数据标签：自然语言处理，语言模型，数据集，机器学习，文本生成，模型评估，人工智能，深度学习数据概述：该数据集包含来自DAGI-...

ZIP

大型语言模型多任务理解能力评估数据集MMLU-LLM-Science竞赛适配-peiyuanliu2001

2025年4月23日 30 193 6

大型语言模型多任务理解能力评估数据集MMLU-LLM-Science竞赛适配-peiyuanliu2001 数据来源：互联网公开数据标签：MMLU,多学科,选择题,语言模型,评估,LLM_Science,竞赛,人工智能,NLP 数据概述：本数据集源自MMLU（Massive Multitask Language...

ZIP

孟加拉语同义句识别基准语料库数据集

2025年4月15日 30 91 62

孟加拉语同义句识别基准语料库数据集数据来源：互联网公开数据标签：同义句检测,孟加拉语,语料库,自然语言处理,文本分析,机器学习,语言模型评估数据概述：本数据集是一个用于孟加拉语同义句识别的基准语料库，收录了8,787对人工标注的句子对，这些句子对来源于23家报纸头版在四个类别中的内容。该数据集旨在为孟加拉语同义句检测的研究提供全面的基准。...