越南语文本事实核查数据集VietnameseTextFactVerificationDataset-nguynhngha

越南语文本事实核查数据集VietnameseTextFactVerificationDataset-nguynhngha

数据来源:互联网公开数据

标签:事实核查, 自然语言处理, 文本蕴含, 越南语, 多文档推理, 文本分类, 机器学习, 语料库

数据概述: 该数据集包含来自越南语文本的事实核查数据,旨在促进越南语文本的事实核查研究和应用。主要特征如下: 时间跨度:数据创建于2023年11月。 地理范围:数据主要来源于越南语文本,涵盖越南地区相关内容。 数据维度:数据集包含多个文件,主要字段包括:key(唯一标识符)、context(上下文文本)、claim(待验证的陈述)、label(标签,表示陈述的真实性,0代表不成立,1代表成立)、evidence(支持陈述的证据文本)。 数据格式:CSV格式,包含训练集(train.csv),验证集(val.csv),测试集(test.csv),以及额外证据数据集(evidence_train.csv,evidence_test.csv)。 来源信息:数据集由[未提供具体来源,但根据文件名推测可能与fair相关]收集和标注。已进行结构化处理,方便模型训练和评估。 该数据集适合用于事实核查、文本蕴含、多文档推理等研究,以及相关模型的开发和评估。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、人工智能等领域的学术研究,特别是越南语事实核查、文本理解、多语言信息处理等方向。 行业应用:可以为新闻媒体、社交媒体平台提供事实核查服务,帮助识别虚假信息,提升信息质量。 决策支持:支持政府机构、企业等在信息分析、决策制定中的事实核查需求,提高决策的准确性。 教育和培训:作为自然语言处理、机器学习相关课程的实训数据,帮助学生和研究人员实践事实核查模型,理解相关技术。 此数据集特别适合用于探索越南语文本的事实判断规律,构建事实核查模型,提升信息检索和理解的准确性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 48.81 MiB
最后更新 2025年5月29日
创建于 2025年5月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。