跳转到主内容
登录
注册
海数据
www.haidatas.com
数据集
方是数据
公开数据
互联网数据
资产化数据
全部数据
资产评估
数据工具
数据供求
数据服务
数据采集
数据清洗
数据审计
数据可视化
数据决策
数据应用的态势呈现
搜索数据集...
主页
数据集
排序
相关度
按名称升序
按名称降序
最后修改
热门
Go
找到1个数据集
分类:
公开数据
标签:
四亿词
过滤结果
加泰罗尼亚通用网络爬取语料库2020
2025年12月4日
30
7
2
数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...
ZIP
回到顶部
在线客服
资产评估
数据工具
智能助手
您好!我是海数据平台的智能助手,有什么可以帮助您的吗?
×
✓
注册成功!
您的账号已经创建成功,欢迎加入我们的平台。