孟加拉语指令数据集-多样化和高质量-shanto8
数据来源:互联网公开数据
标签:孟加拉语,指令,自然语言处理,教育,翻译,语义理解,文本生成,文化传承,技术文档
数据概述:
本数据集包含超过13,000条指令集,这些指令集经过精心设计,旨在反映现实世界中的各种场景和沟通风格。数据集强调自然性和上下文相关性,模拟了人们在不同环境(正式、学术或非正式)中提供指导的方式。这种多样性确保了数据集能够适用于广泛的应用场景。
数据集的一个关键优势在于其高质量。通过对近95%内容的严格人工审查,我们确保了指令的清晰度和准确性。大约30%的指令由母语孟加拉语人士完全手动生成,利用其语言和文化知识创建了真实而细腻的指令。剩余70%的指令来源于大型语言模型(LLM),经过人工精炼和修改,以符合我们的高标准。
虽然LLM提供了广泛的想法,但需要大量改进以确保流畅性和上下文理解。通过仔细的人工干预,这些指令获得了清晰度、精确性和自然语气,适合实际使用。这个细致的筛选和改进过程增强了数据集的深度和实用性。
为了捕捉人们提供指令的不同方式,我们收集了各种风格的指令。指令从直接和结构化的逐步任务到非正式的、情境驱动的解释不等。这种变化使模型能够处理不同任务,并使其高度适应。
数据集涵盖了多个类别,每个类别针对特定任务类型,以确保全面覆盖:
总结任务:包括将长篇内容压缩成简短摘要的指令。数据集中的任务包括:
新闻文章:捕捉日常新闻的关键点。
故事:提供虚构和非虚构故事的简短摘要。
学术论文:提炼复杂的学术内容。
复杂报告:总结包含数据和细节的报告。
法律文件:简化冗长的法律文本,便于理解。
演讲:提取公共或正式演讲中的关键信息。
解释:聚焦于提供针对各种主题的清晰和连贯的解释。包括:
简化解释:用简单易懂的方式解释复杂主题。
详细解释:提供关于一个主题的深入信息。
技术澄清:简化特定领域(如医疗、工程和IT)的技术内容。
知识问答:帮助模型回答关于以下领域的事实性问题:
一般知识
孟加拉的文化遗产和传统
科学概念
健康和环境
经济和时事
改写任务:这些任务要求在保留原始意义的情况下重新表述句子或段落。这有助于模型生成同一想法的多种表达方式,增强其适应性。
逐步指令:提供通过清晰、逐步说明完成任务的指导。例如:
解决不同任务,包括数学问题:详细分解问题解决步骤。
食谱:列出易于遵循的烹饪说明。
DIY程序:引导用户完成各种DIY任务。
翻译:包括:
将英文翻译成孟加拉语和将孟加拉语翻译成英文。
将孟加拉语转换为区域方言,如吉大港、锡尔赫特、诺阿卡利、拉杰沙希和巴里萨尔。
创造性写作:通过任务如:
写诗和故事:生成原创创意内容。
对话创作:在不同情境下构建真实的对话。
民间故事:编写传统孟加拉民间故事以保存文化遗产。
校对:校对任务帮助模型识别并纠正:
语法错误
标点错误
拼写错误
分类任务:包括任务如分类:
情感:确定句子表达的是正面、负面还是中性情感。
主题:将句子归类到相关主题。
实体:将词语或短语分类为人名、地名等实体类型。
头脑风暴任务:涉及生成想法、建议替代方法和为各种场景构想标题。
趣味:包括写简短简单的孟加拉语笑话,以提高模型生成轻松内容的能力。
总结来说,孟加拉语指令数据集是一个精心策划的任务集合,旨在微调语言模型以适应各种应用场景。它涵盖了总结、翻译、创造性写作、技术解释等多种类别。数据集反映了正式和非正式的沟通风格,确保模型能够适应各种环境,从专业环境到日常对话。通过全程的人工审查,数据集保持高质量、准确性和上下文相关性。其全面的范围使其成为开发能够有效理解和生成孟加拉语内容的语言模型的宝贵资源。