数据73种语言句子级释义语料库TaPaCo

数据集概述

该数据集为73种语言的句子级释义语料库TaPaCo,从Tatoeba数据库提取,经语言无关过滤和修剪步骤处理。含约190万句,每种语言20万至25万句,覆盖无其他释义数据集的语言,部分语言人工评估显示半数至四分之三释义正确。

文件详解

  • 文件名称: tapaco_v1.0.zip:压缩包格式,包含73种语言的句子级释义语料库数据
  • 文件名称: tapaco_lrec2020.pdf:PDF格式,可能为介绍该语料库的论文文档,含构建方法、评估结果等内容

数据来源

Tatoeba数据库

适用场景

  • 自然语言处理研究:用于多语言释义生成、语义相似度计算等任务模型训练与评估
  • 计算语言学分析:研究不同语言的释义表达规律与形态差异中和现象
  • 语言资源建设:补充低资源语言的释义数据集,支持语言学习与翻译工具开发
  • 多语言语义理解:探究跨语言句子语义等价性的特征与模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 30.95 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。