找到1个数据集

分类: 公开数据 标签: 百万文档

过滤结果
  • 加泰罗尼亚通用网络爬取语料库2020

    2025年12月4日 30 19 14

    数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...
    packageimg