-
nlp_text_sentence_Based_汉印尼复合句数据集
数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
-
HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集
数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
-
WOKIE_Based_SKOS叙词表LLM自动化翻译系统支持数据
数据集概述 本数据集为WOKIE项目“FAIR in allen Sprachen”的附录数据,包含基于LLM的SKOS叙词表自动化翻译系统相关文件,涉及多语言翻译结果、翻译详情及原始叙词表等内容,共10个文件,用于支持该翻译系统的相关研究与应用。 文件详解 RDF格式文件(80.0%) 文件名称:unesco_reduced_en-...
-
数据85_Business_Word_中印尼商务词汇多平台翻译数据
数据集概述 本数据集包含85条商务相关中文词汇的印尼语翻译结果,通过Google Translate、Baidu Translate和DeepL三个翻译工具生成,为商务场景下的中印尼词汇翻译提供多平台对比参考,共含1个文件。 文件详解 文件名称:85 Chinese-Indonesian Business Word Translations.xlsx...
-
WMT17_Based_生物医学翻译任务Scielo测试与黄金数据集
数据集概述 本数据集为第二届机器翻译会议(WMT'17)生物医学翻译任务的测试与黄金数据集,包含测试文件、黄金文件及使用GMA工具生成的自动对齐文件,数据来源于Scielo数据库,以压缩包形式提供。 文件详解 文件名称:wmt17-biomedical-scielo.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类文件:测试文件(Test...
-
ClinSpEn_CT_Based_平行英西生物医学术语数据_2022
数据集概述 本数据集为ClinSpEn-Clinical Terms子任务的样本、测试及背景数据,方向为西班牙语到英语(ES>EN)翻译。术语源自医学文献和临床记录,聚焦疾病、症状等类别,由专业医疗译者翻译修订,支持生物医学领域机器翻译系统开发与评估。 文件详解...
-
WMT16_Based_Medline生物医学翻译任务平行语料数据集
数据集概述 本数据集为WMT'16生物医学翻译任务提供的平行语料,源自Medline/PubMed数据库,包含西班牙语-英语、法语-英语、葡萄牙语-英语三种语言对的平行文本数据,支持生物医学领域的机器翻译模型训练与评估。 文件详解 文件名称:pubmed_en_pt.txt.zip 文件格式:ZIP 字段映射介绍:包含英语-葡萄牙语生物医学平行文本数据...
-
Regesta_Imperii_Based弗里德里希三世皇帝特许状登记册自动化翻译数据集
数据集概述 本数据集提供弗里德里希三世皇帝(1440-1493年在位)特许状登记册的英文自动化翻译内容,源自Regesta Imperii项目。翻译基于DeepL神经机器翻译技术,经专业术语词汇表补充及人工编辑,包含第1-36卷的简版登记册摘要,助力国际用户查阅中世纪皇权特许状文献。 文件详解 文件名称:Gesamt1.xlsx 文件格式:XLSX...
-
低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0
数据集概述 本数据集包含肯尼亚三种本土语言(Kidaw'ida、Kalenjin、Dholuo)与斯瓦希里语的平行语料库,每种语料库平均含三万句对,用于训练机器翻译模型,支持斯瓦希里语与本土语言间的翻译,由USIU-Africa等机构研究者创建,将持续更新优化。 文件详解 文件名称:waleghwa/low-resource-language-...
-
JOST_专业翻译杂志_非二元性别出柜报道中性别公平语言策略的翻译研究数据
数据集概述 本数据集为论文“Translating Non-Binary Coming-Out Reports: Gender-Fair Language Strategies and Use in News...
-
Thucydides_Persian_修昔底德著作波斯语译本关键术语对应数据
数据集概述 本数据集系统整理了修昔底德《伯罗奔尼撒战争史》波斯语译本中“Barbarians”“Persians”“Medes”三类关键术语的对应翻译。通过提取希腊原文术语(如βάρβαρος、Μῆδος等),匹配穆罕默德·哈桑·洛特菲译本中的波斯语表达,包含原文出处、波斯语译文及英文回译等信息,共9个结构化文件,支持古典文献翻译研究与术语对比分析。...
-
TradutorNós_Based_加利西亚语EMP多词表达自动翻译评估数据
数据集概述 本数据集用于评估TradutorNós翻译工具对加利西亚语多词表达(EMP)的翻译精度,包含加利西亚语到英语、西班牙语的翻译内容,仅含一个文件,便于快速获取和使用。 文件详解 文件名称:Conjunto de datos de traducción automática de la EMP en gallego con...
-
IN00618_Source_NAUSARI_SILADITYA铭文翻译数据
数据集概述 本数据集为IN00618编号的NAUSARI PLATES OF YUVARAJA SRYASRAYA SILADITYA铭文的翻译文件,包含一份文档,记录该铭文的翻译内容,是研究相关历史铭文的基础资料。 文件详解 文件名称:IN00618 translation.docx 文件格式:DOCX...
-
Referências_Culturais_视听翻译文化参考公众接收研究数据集
数据集概述 本数据集为视听翻译文化参考相关的公众接收研究数据,聚焦欧洲葡萄牙语字幕的公众接收情况,是一项接收研究的复现数据集。包含一个数据文件,可用于分析视听翻译中文化参考的公众接收特征。 文件详解 文件名称:Data.xlsx 文件格式:XLSX...
-
MeSDiCon_Based_西班牙语医学疾病症状候选名称词汇集_未过滤初始版
数据集概述 本数据集为MeSDiCon(西班牙语医学疾病与症状名称词汇集)的未过滤初始版本,包含西班牙语临床文本中提及的疾病和症状候选名称列表。数据通过自动识别、翻译及临床语料匹配生成,每条记录关联目标术语命名空间(MeSH或OMIM)及对应标识符,提供术语在2000万份西班牙语临床笔记中的出现频率和文档频率。 文件详解...
-
IN00605_Translation_帕利塔纳铭文德鲁瓦塞纳一世210年翻译文档
数据集概述 本数据集包含IN00605编号的帕利塔纳铭文(Palitana Plates)中德鲁瓦塞纳一世(Dhruvasena I)210年相关内容的翻译文档,核心为铭文文本的翻译资料,共包含2个文件,均为文档格式。 文件详解 文件名称:IN00605 Translation.docx 文件格式:DOCX...
-
Perseus_Based_Plato_s_Crito多语言句对齐翻译数据_学生版
数据集概述 本数据集为柏拉图《克里托篇》(Crito)的多语言句对齐翻译语料,包含原始古希腊文(Burnet版本)及对应翻译:5份波斯语学生翻译、2份英语翻译(Jowett版、Fowler版)、1份德语翻译(Schleiermacher版)。数据支持多语言翻译对齐研究,共3个文件。 文件详解 文件名称:Translations of Crito by...
-
dijak_Concordance_Slovenian_Italian双语对照条目数据
数据集概述 本数据集展示斯洛文尼亚语术语“dijak(中学生)”与其意大利语对应词的双语对照条目,来源于斯洛文尼亚共和国官方公报中具有法律约束力的斯洛文尼亚-意大利双语文本。包含2004-2024年斯洛文尼亚伊斯特拉地区84份双语出版物的相关内容,涉及学前和初等教育及奖学金领域,用于呈现术语在官方话语中的使用场景、语义差异及翻译选择。 文件详解...
-
Literal_vs_Default_Based_埃及语翻译认知研究开放数据_2023
数据集概述 本数据集为论文《Literal vs. default translation. Challenging the constructs with Middle Egyptian translation as an extreme case in...
-
Ugarit_Based_阿尔特米多鲁斯_解梦_第五卷希腊_葡萄牙语对齐翻译数据_V2
数据集概述 本数据集包含阿尔特米多鲁斯《解梦》第五卷的希腊原文与葡萄牙语译文对齐版本,涵盖95章正文及分为四部分的序言,共99个文件。数据基于Pack 1963年希腊文版本和2014年葡萄牙语译文修订版,通过Ugarit平台对齐,是巴西圣保罗州立大学数字古典学开放项目的一部分。 文件详解 对齐翻译文件(XML格式)...



