英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印

英译印语言模型指令数据集-NVIDIAHelpSteer数据集-英译印 数据来源:互联网公开数据 标签:语言模型,自然语言处理,机器翻译,印地语,文本生成,指令,NVIDIA,HelpSteer,数据集 数据概述: 本数据集是NVIDIA HelpSteer数据集的衍生,包含了大量从英文翻译成印地语的指令,以及对应的预期回复。数据集包含“prompt”(指令)和“response”(回复)两列,每一对样本都由印地语的指令和印地语的预期回复构成。该数据集旨在帮助训练和微调语言模型(LMs),以提升其对印地语的理解和生成能力。

数据用途概述: 该数据集主要用于以下几个方面: * 训练印地语语言模型: 将此数据集用作训练数据,增强专注于理解和生成印地语回复的语言模型的能力,方法是提供翻译后的指令和预期回复。 * 微调基于指令的LLMs: 利用此数据集微调专门设计用于根据印地语指令生成上下文相关印地语回复的语言模型。 * 研究与开发: 探索和试验翻译后的数据集,以推动基于印地语的语言模型和自然语言理解领域的发展。

本数据集基于 Apache 2.0 许可证发布,为研究社区提供了一个宝贵的资源,用于探索、创新和提高语言模型生成连贯、准确且与上下文相关的印地语回复的能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.64 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。