-
加泰罗尼亚政府网页爬取语料库2020
2025年12月13日 30 185 71
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
2025年12月13日 30 185 71