印度语维基百科文章问答对数据集-问答生成-36-6k
数据来源:互联网公开数据
标签:问答对,印度语,维基百科,自然语言处理,机器翻译,问答生成,文本数据,语言学习
数据概述:
本数据集包含约36600个印度语问答对,由一个问答生成模型从Kaggle提供的印度语维基百科文章数据集(包含17.2万篇文章)中提取。数据集中的问答对是基于原文生成的,旨在为问答训练提供更多数据。原始数据来源为:https://www.kaggle.com/disisbig/hindi-wikipedia-articles-172k,问答生成模型训练过程参见:https://www.kaggle.com/nbroad/chaii-qa-question-generation-model-training。由于去除了重复的问答对和文章,最终数据集规模为36600个问答对。
数据用途概述:
该数据集主要用于训练和评估印度语问答模型。通过使用该数据集,可以生成新的问答训练数据,从而提升问答模型的性能和泛化能力。此外,该数据集也可用于印度语语言学习、文本分析、信息检索等领域。使用者可以通过对该数据集进行分析,评估问答生成模型的质量,并将其应用于各种自然语言处理任务中。