越南文本摘要数据集

越南文本摘要数据集 数据来源:互联网公开数据
标签:越南语,文本摘要,长摘要,新闻媒体,数据科学,自然语言处理
数据概述:
本数据集是一个用于越南语文本摘要任务的资源,包含从越南主流新闻网站(如dantri、vietnamnet和vnexpress)收集的长文本数据。数据集共包含5个字段,分别为原始文本、摘要文本、输出句子数、输入句子数和摘要比例(输出句子数与输入句子数的比值,平均比值大于0.5)。数据集包含42,833条记录,适用于需要长摘要的文本摘要任务研究。
数据用途概述:
该数据集适用于越南语文本摘要模型的训练与评估,支持长文本摘要任务的研究与开发。研究者可利用此数据集探索文本摘要算法的性能优化;开发者可基于此数据集构建越南语文本摘要工具;学术机构可将其用于自然语言处理课程的实践教学。此外,数据集还为越南语新闻内容的自动化处理提供了重要支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 56.1 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。