-
加泰罗尼亚通用网络爬取语料库2020
2025年12月4日 30 77 10
数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...
2025年12月4日 30 77 10