加泰罗尼亚通用网络爬取语料库2020

数据集概述

该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。

文件详解

  • 文件名称: catalan_general_crawling.zip
  • 文件格式: ZIP(.zip)
  • 内容说明: 压缩包内含构成加泰罗尼亚通用网络爬取语料库的所有数据文件,文档以单行新行分隔

数据来源

BSC文本挖掘小组(Text Mining Unit at BSC)

适用场景

  • 加泰罗尼亚语自然语言处理模型训练
  • 网络文本语料库构建与分析
  • 语言资源库补充与拓展
  • 中低资源语言处理研究
  • 网络内容语言学特征分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 834.55 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。