找到976个数据集

标签: 机器翻译

过滤结果
  • OJ_Samples_翻译结果与评估数据集

    2026年2月2日 30 92 6

    数据集概述 本数据集开源了小规模OJ样本及其翻译结果与评估结果,为相关实验提供基础数据支撑。数据集包含1个压缩文件,未划分训练测试集、数据标签集或原始处理集,具体内容可参考README.md。 文件详解 文件名称:oj_samples.zip 文件格式:ZIP...
    packageimg
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 0 85 53

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • GPT_4_Turbo_沙特法律文件翻译数据

    2026年2月1日 30 34 6

    数据集概述 本数据集包含由GPT-4 Turbo翻译的14份沙特阿拉伯法律文件,均为Excel格式。涵盖基础治理法、司法法、诉讼程序法、专利法等多个法律领域,无目录结构,文件直接存储,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称与格式:14个文件均为.xlsx格式,包括《Basic Law of...
    packageimg
  • 医疗场景机器翻译研究_荷兰华人移民健康沟通数据

    2026年2月1日 30 185 22

    数据集概述 本数据集围绕荷兰近期华人移民在医疗场景中使用机器翻译的情况展开,包含相关研究的中英文文档资料,为了解医疗沟通中机器翻译的应用实践提供参考。 文件详解 文件名称:Chinese_Migrants_in_the_Nederlands-ZH-S.docx 文件格式:DOCX...
    packageimg
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 96 20

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 0 3 2

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • S5_Data_Swahili匿名IDI转录本数据

    2026年1月31日 30 66 31

    数据集概述 本数据集为S5 Data,包含斯瓦希里语中所有IDI(个体深度访谈)转录本的匿名版本,这些转录本基于S4 Data进行分析,并选择性翻译用于结果部分的引用。数据集仅包含一个文件。 文件详解 文件名称:S5 Data. IDIs transcripts.docx 文件格式:DOCX...
    packageimg
  • 加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

    2026年1月31日 30 17 13

    数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
    packageimg
  • English_Yoruba_英语到约鲁巴语翻译数据集

    2026年1月31日 30 176 87

    数据集概述 本数据集为英语到约鲁巴语的翻译数据,适用于Android手机的短消息服务语音和文本翻译场景,包含1个文件,无目录结构,主要文件格式为.xlsx。 文件详解 文件名称:Updated Translation Datasets.xlsx 文件格式:XLSX...
    packageimg
  • ZENODO人工智能智能体机器翻译人类评价数据集2025

    2026年1月30日 30 72 59

    数据集概述 本数据集为论文《Are AI agents the new machine translation frontier?》配套的人类评估数据,聚焦AI智能体(单智能体与多智能体系统)在机器翻译领域的应用潜力,包含针对其翻译质量的人工评估结果,是研究AI智能体机器翻译性能的关键支撑数据。 文件详解 文件名称:AI agents paper -...
    packageimg
  • 南非语言嵌入评估数据集_Simlex_和_WordSim

    2026年1月30日 30 165 53

    数据集概述 本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。 文件详解 文件名称:SimLex-999-orig - Sepedi.xlsx...
    packageimg
  • AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

    2026年1月29日 30 187 124

    数据集概述 本数据集是面向神经机器翻译任务的多语言平行文本集合,包含从法语到丰贝语(多哥语言)、法语到埃维语(贝宁语言)的平行句子对,总计七万余条标注数据,适用于机器翻译和句子分类任务,由AI4D倡议贡献。 文件详解 文件名称:French_to_fongbe.csv 文件格式:CSV...
    packageimg
  • Bejay_多语言翻译_水主题Tsombiach编织图案数据

    2026年1月29日 0 200 136

    数据集概述 本数据集包含Bejay创作的以水为主题的Tsombiach编织图案的多语言翻译数据,涉及西班牙语、Kämentza语和英语三种语言。数据集以单一Excel文件形式呈现,无其他目录结构或文件类型,主要用于记录不同语言对编织图案的翻译内容。 文件详解 文件名称:Bejay:Agua:Water-pictograms-...
    packageimg
  • Flexico_Source_自适应可持续机器翻译实验复现数据

    2026年1月29日 30 133 31

    数据集概述 本数据集用于复现论文“Flexico: Sustainable Machine Translation via Self-Adaptation”的研究结果,包含6个文件,涉及香港新闻和opus_eng_fra数据集的实验数据,涵盖聚类距离、时间统计等机器翻译自适应相关指标,支持可持续翻译模型的实验验证。 文件详解 香港新闻数据集相关文件...
    packageimg
  • MUST_LT_Based_学生翻译评估语料库数据_2023版

    2026年1月28日 30 174 147

    数据集概述 本数据集包含MUST-LT语料库中的学生翻译评估数据,用于搭配翻译研究。数据源自Vaičenonienė, J. 2023年关于MUST-LT学习者翻译语料库的搭配翻译案例分析研究,为翻译教学与研究提供实证数据支持。 文件详解 文件名称:MUST-LT studentų vertimai.docx 文件格式:DOCX...
    packageimg
  • ChatGPT_Based_HSK3词汇句子翻译准确性研究数据

    2026年1月28日 30 95 87

    数据集概述 本数据集围绕HSK3词汇句子的ChatGPT翻译准确性展开研究,包含一份文档文件,记录了相关研究的核心数据内容,可用于分析ChatGPT在HSK3词汇句子翻译任务中的表现。 文件详解 文件名称:Data CHATGPT dan KAMUS BESAR.docx 文件格式:DOCX...
    packageimg
  • 数据2024_MT_LLM_英到斯洛文尼亚语翻译质量评估数据集

    2026年1月28日 30 200 98

    数据集概述 本数据集为大语言模型(LLM)与传统神经机器翻译(NMT)的评估任务制备,包含7个系统(3个MT系统、4个LLM AI助手)的英到斯洛文尼亚语翻译结果,原始源文本与翻译同步采集以避免数据泄漏。 文件详解 翻译评估表格文件...
    packageimg
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日 30 7 0

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

    2026年1月27日 30 181 35

    数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
    packageimg
  • WOKIE_Based_SKOS叙词表LLM自动化翻译系统支持数据

    2026年1月27日 30 74 15

    数据集概述 本数据集为WOKIE项目“FAIR in allen Sprachen”的附录数据,包含基于LLM的SKOS叙词表自动化翻译系统相关文件,涉及多语言翻译结果、翻译详情及原始叙词表等内容,共10个文件,用于支持该翻译系统的相关研究与应用。 文件详解 RDF格式文件(80.0%) 文件名称:unesco_reduced_en-...
    packageimg