-
加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版
2026年1月31日 30 191 55
数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
-
Compound_words_Based_阿拉伯语中文复合词样本数据
2026年1月27日 30 126 89
数据集概述 本数据集包含阿拉伯语与中文复合词相关的样本数据,聚焦两种语言复合词的对比研究场景,为语言学领域的复合词结构、构成规则等分析提供基础样本支持,数据集由单一文件构成。 文件详解 文件名称:Arabic & Chinese samples.xlsx 文件格式:XLSX...
-
Phenopackets_Based_多语言基因医学案例集_自动更新版
2026年1月26日 30 144 98
数据集概述 本数据集包含基于Phenopackets生成的多语言基因医学案例集,支持捷克语、中文、荷兰语、英语、德语、意大利语、日语、西班牙语和土耳其语共9种语言,用于LLM研究,会随Phenopacket Store更新自动同步最新HPO翻译和案例数据。 文件详解 压缩文件(ZIP)...
-
汉乌英三种语言中抽象名词的语义解读数据集
2025年12月9日 30 69 38
数据集概述 本数据集聚焦于中文、乌兹别克语和英语三种语言中抽象名词的语义解读研究,以单一PDF文档形式呈现相关研究内容,为跨语言词汇语义对比分析提供资料支持。 文件详解 文件名称: Jabborov Azamat Ashirkul oʽgʽli.pdf 文件格式: PDF (.pdf) 文件内容:...



