加泰罗尼亚通用网络爬取语料库2020

该数据集是加泰罗尼亚语文本语料库的子库，通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取，包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档，文档以单行新行分隔，用于语言学或自然语言处理研究。

BSC文本挖掘小组（Text Mining Unit at BSC）

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	834.55 MiB
最后更新	2025年12月4日
创建于	2025年12月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。