维基百科名人传记翻译数据集

维基百科名人传记翻译数据集 数据来源:互联网公开数据 标签:机器翻译,性别准确性,上下文信息,英文,西班牙文,德文,语言处理,数据集分析

数据概述: 维基百科名人传记翻译数据集旨在分析机器翻译中常见的性别错误,如无主语句、所有格和性别一致性的错误选择。数据集中的每个实例代表一个人(在传记中被识别为女性或男性)、一个摇滚乐队或一个体育团队(被视为无性别)。每个实体由一段较长的文本翻译(8到15个连续的句子,涉及该核心实体)呈现。这些文章最初用英语撰写,并由专业人士翻译成西班牙文和德文。对于西班牙文翻译,专门优化了代词省略的处理,因此同一组数据可以用于分析无主语句(西班牙文→英文)和性别一致(英文→西班牙文)。

数据用途概述: 该数据集适用于机器翻译领域的研究,特别是在性别准确性和上下文信息处理的研究中。研究人员可以利用此数据集来识别和分析机器翻译中的性别错误模式,并改进翻译算法。此外,该数据集也可以用于比较不同语言对的翻译质量,特别是在性别表达和上下文信息处理方面的差异。此外,数据集还可以用于语言学和文化研究,帮助了解不同语言中性别表达的差异。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.44 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。