数据集

法语文本转俚语翻译训练数据集-Gemma模型微调-KAIra-2024-optimo

法语文本转俚语翻译训练数据集-Gemma模型微调-KAIra-2024-optimo 数据来源：互联网公开数据标签：法语,俚语,翻译,自然语言处理,LLM,Gemma,模型训练,文本数据,语言学,KAIra,文本生成数据概述：本数据集是为微调大型语言模型（LLM）以实现法语文本到俚语翻译而创建的训练集。数据集包含约6700个训练样本，每个样本包含传统的法语文本（存储于story列）及其对应的俚语翻译（存储于verlan_story列）。此外，input_text列提供了用于生成故事的初始提示，有助于理解数据的生成方式和追溯过程。该数据集是“Google - 使用Gemma解锁全球沟通”竞赛的提交内容之一。数据生成过程中，约一半的样本使用本地Gemma2-27b-it模型，其余样本则通过Google API调用gemini-1.5-flash模型完成。数据用途概述：该数据集主要用于训练和微调大型语言模型，使其能够将传统的法语文本翻译成对应的俚语表达。研究人员和开发者可以利用此数据进行模型训练，从而开发出能够理解和生成法语俚语的语言模型。此外，该数据集也可以用于语言学研究，例如分析法语俚语的结构和演变，以及研究不同模型在翻译任务上的表现。该数据集也适用于教育领域，用于辅助学习者理解法语俚语，或用于构建语言学习相关的应用程序。

数据与资源

versions_20250409185341.zipZIP
5.10 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.1 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

法语文本转俚语翻译训练数据集-Gemma模型微调-KAIra-2024-optimo

数据与资源

附加信息

注册成功！