Gigatrue斯洛伐克语抽象摘要数据集

数据集概述

本数据集为合成Gigaword数据集的斯洛伐克语翻译版本,基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成,专注于抽象摘要任务,为斯洛伐克语文本摘要研究提供数据支持。

文件详解

  • 文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf
  • 文件格式: PDF (.pdf)
  • 文件内容: 包含翻译后的斯洛伐克语抽象摘要数据集内容,具体字段及结构可参考原始Gigaword及Gigatrue数据集设计

数据来源

  • 原始数据集来源: Harvard/gigaword
  • 翻译数据集参考: Plasmoxy/gigatrue
  • 翻译工具: SeamlessM4T-v2

适用场景

  • 自然语言处理研究: 用于斯洛伐克语抽象文本摘要模型的训练与评估
  • 机器翻译应用: 分析SeamlessM4T-v2工具在文本摘要领域的翻译效果
  • 低资源语言处理: 补充斯洛伐克语文本摘要任务的数据集资源
  • 计算语言学研究: 探索跨语言摘要任务的迁移学习可能性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.06 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。