-
加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版
2026年1月31日 30 99 32
数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
-
VeLeCa_Source_加泰罗尼亚语动词词形变化词库数据
2026年1月29日 30 113 33
数据集概述 本数据集为VeLeCa,即加泰罗尼亚语动词屈折变化词库,包含三千四百八十四个词位的十七万四千二百个词形的语音形式,以及对应的词汇、形态句法属性和频率数据。数据集总计十个文件,覆盖数据、文档、代码等类型,为加泰罗尼亚语动词的语言学研究提供结构化资源。 文件详解 数据文件(CSV格式,共5个)...
-
NLUCat_Based_加泰罗尼亚语NLU意图与槽位标注数据集
2026年1月28日 30 39 37
数据集概述 本数据集为加泰罗尼亚语的自然语言理解(NLU)数据集,包含近1.2万条标注指令,涵盖虚拟家庭助手常用意图及弱势群体的社会、医疗需求意图,标注细粒度槽位并考虑加泰罗尼亚语使用者的地理文化背景。可用于训练意图分类、槽位识别及示例生成模型。 文件详解 主数据集文件 文件名称:NLUCat_dataset.json 文件格式:JSON...
-
Giravolt_Project_古罗马玻璃香水瓶多语言描述与三维模型数据
2026年1月21日 30 135 3
数据集概述 本数据集包含古罗马2世纪圆柱形玻璃香水瓶(FLASCÓ DE VIDRE)的多语言描述与数字化文件,由Giravolt项目创建。文物特征为直颈、钟形无唇边口沿,用于盛放药膏或香水,主体有两个面,尺寸11.2×2.7×2.5厘米。数据集含6个文件,支持文物数字化研究与展示。 文件详解 三维模型文件...
-
Macbeth_Montoliu_1907加泰罗尼亚语译本翻译技术研究数据
2026年1月21日 30 114 4
数据集概述 本数据集包含3个文件,用于支撑Júlia Palomares的学位论文研究。内容围绕1907年Cebrià Montoliu将莎士比亚悲剧《Macbeth》从英语译为加泰罗尼亚语的翻译技术展开,数据通过Skecth Engine工具获取,涵盖原始词表、筛选词表及双语语料库。 文件详解 文件名称:Wordlist inicial de la...
-
AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版
2026年1月18日 30 55 48
数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
-
TECA_Textual_Entailment_Catalan数据集v_1_0_2
2026年1月15日 30 123 96
数据集概述 本数据集为加泰罗尼亚语文本蕴含(TE)数据集TECA,包含catalan_TE1和vilaweb_TE两个子集,共14997和6166对标注的前提与假设句子对,标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线,以.zip格式发布,无训练测试等拆分。 文件详解 文件名称:TECA_v.1.0.2.zip...
-
Predicting_Discrimination_Difficulty_加州英语元音对比分类与判别数据集
2025年12月30日 30 130 123
数据集概述 本数据集包含两项感知实验结果:一是西班牙语-加泰罗尼亚语高级学习者将加州英语元音(二语)归类为加泰罗尼亚语元音(母语)的感知同化实验数据,二是该群体对加州英语元音对比的ABX判别测试数据。数据基于PAM-L2模型进行解释,共含3个文件。 文件详解 Readme2.rtf 文件格式:RTF...
-
TeCla加泰罗尼亚语文本分类数据集
2025年12月20日 30 170 19
数据集概述 本数据集为用于主题多分类文本分类任务的加泰罗尼亚语新闻语料库(TeCla 2.0),包含十一万三千三百七十六篇文章,采用粗粒度(4类)和细粒度(共53类)的层级分类结构,每类粗粒度对应若干细粒度类别。 文件详解 文件名称: tecla_v2.zip 文件格式: ZIP压缩包 内容说明:...
-
马略卡岛多语言语言景观数据集2023
2025年12月20日 30 39 26
数据集概述 该数据集包含2023年5月在马略卡岛实地考察中收集的语言景观照片,覆盖帕尔马、波连萨港、瓦尔德莫萨和阿尔库迪亚四个地点,重点记录罗马尼亚语、加泰罗尼亚语与西班牙语的互动,同时包含符号元素、旅游语言及越界标识等内容。 文件详解 核心文件:均为.jpg格式的语言景观照片,共一百个文件,无子目录结构。...
-
玻璃小瓶_恩波达博物馆藏品
2025年12月15日 30 145 7
数据集概述 该数据集为恩波达博物馆(Museu de l'Empordà)藏玻璃小瓶的数字化资料,包含藏品的多语言描述(加泰罗尼亚语、西班牙语、英语)及数字文件,记录了小瓶的形制、装饰与推测用途,为研究古代玻璃器皿提供基础资料。 文件详解...
-
加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集
2025年12月13日 30 206 99
数据集概述 本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。 文件详解 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...
-
加泰罗尼亚政府网页爬取语料库2020
2025年12月13日 30 114 58
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
-
加泰罗尼亚语语义文本相似度基准数据集1_0_2
2025年12月9日 30 202 98
数据集概述 该数据集是用于评估加泰罗尼亚语语义文本相似度(STS)的基准语料库,包含三千余对人工标注的句子对,标注遵循SemEval挑战指南,基于0到5分的相似度评分标准,为语义相似度模型的构建与评估提供支持。 文件详解 文件名称:STS-ca_v.1.0.2.zip 文件格式:ZIP压缩包...
-
圣乔治礼拜堂_加泰罗尼亚政府宫数据集
2025年12月4日 30 91 67
数据集概述 该数据集包含圣乔治礼拜堂(位于加泰罗尼亚政府宫)的多语言描述文本及相关文件。礼拜堂建于1432-1434年,后经多次改建,数据提供了其历史背景与位置信息,支持建筑历史与文化遗产研究。 文件详解 文件名称: 17ac134428b24eda892557de6406a93f.glb 文件格式: GLB (.glb) 内容说明:...
-
加泰罗尼亚通用网络爬取语料库2020
2025年12月4日 30 37 11
数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...
-
加泰罗尼亚语文本词汇预测数据集
2025年11月12日 30 178 13
加泰罗尼亚语文本词汇预测数据集_Catalan_Text_Vocabulary_Prediction 数据来源:互联网公开数据 标签:自然语言处理, 文本预测, 语言模型, 加泰罗尼亚语, 词汇分析, 深度学习, 语料库, 文本生成 数据概述:...
-
加泰罗尼亚语词汇游戏Paraulògic词汇数据集
2025年4月14日 30 45 10
加泰罗尼亚语词汇游戏Paraulògic词汇数据集 数据来源:互联网公开数据 标签:加泰罗尼亚语,词汇游戏,语言学习,词汇量,游戏数据,拼字游戏,罗达莫斯 数据概述: 本数据集收录了加泰罗尼亚语词汇游戏Paraulògic的词汇数据,该游戏由Rodamots创建,旨在测试玩家的词汇能力。数据集包含两个主要文件:...



