法语文本转俚语翻译训练数据集-Gemma模型微调-KAIra-2024-optimo
数据来源:互联网公开数据
标签:法语,俚语,翻译,自然语言处理,LLM,Gemma,模型训练,文本数据,语言学,KAIra,文本生成
数据概述:
本数据集是为微调大型语言模型(LLM)以实现法语文本到俚语翻译而创建的训练集。数据集包含约6700个训练样本,每个样本包含传统的法语文本(存储于story列)及其对应的俚语翻译(存储于verlan_story列)。此外,input_text列提供了用于生成故事的初始提示,有助于理解数据的生成方式和追溯过程。该数据集是“Google - 使用Gemma解锁全球沟通”竞赛的提交内容之一。数据生成过程中,约一半的样本使用本地Gemma2-27b-it模型,其余样本则通过Google API调用gemini-1.5-flash模型完成。
数据用途概述:
该数据集主要用于训练和微调大型语言模型,使其能够将传统的法语文本翻译成对应的俚语表达。研究人员和开发者可以利用此数据进行模型训练,从而开发出能够理解和生成法语俚语的语言模型。此外,该数据集也可以用于语言学研究,例如分析法语俚语的结构和演变,以及研究不同模型在翻译任务上的表现。该数据集也适用于教育领域,用于辅助学习者理解法语俚语,或用于构建语言学习相关的应用程序。