-
黑人命也是命_BLM_推特语料库2010_2022
2025年12月18日 30 68 16
数据集概述 该数据集是围绕黑人命也是命(BLM)运动的大规模推特语料库,覆盖2010-2022年期间的相关推文,总量超五千万条。同时包含“所有生命都重要”和“蓝命也重要”的平行语料库,为研究社会运动相关的社交媒体讨论提供全面数据支持。 文件详解 Twitter blue_lives_matter...
-
Umsuka英语_祖鲁语平行语料库
2025年12月8日 30 11 7
数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
-
Mediomatix_Corpus_Based_罗曼什语习语平行语料完整数据
2025年12月10日 30 18 2
数据集概述 该数据集是论文《The Mediomatix Corpus: Parallel Data for Romansh Idioms via Comparable Schoolbooks》的数据与代码备份,核心内容为罗曼什语习语的平行语料数据,基于可比教材构建,为相关研究提供数据支持。 文件详解 数据集包含两个压缩文件,具体说明如下: -...
-
俄语虚词_KA的意义语法与词源研究数据集
2025年12月8日 30 201 156
数据集概述 本数据集基于莫斯科方言学圈特邀报告扩展修订,聚焦俄语虚词-KA(-KO)的意义、语法、词源及环波罗的海区域联系,结合现代标准俄语、北部俄语方言及俄语-维普斯语/卡累利阿语平行语料展开分析。 文件详解 文件名称: Particle KA 05 June.pdf 文件格式: PDF(.pdf) 文件内容: 包含研究报告全文,涉及虚词-...
-
越南语-西班牙语平行语料数据集Vietnamese-SpanishParallelCorpus-duy52000751
2025年5月30日 30 41 16
越南语-西班牙语平行语料数据集Vietnamese-SpanishParallelCorpus-duy52000751 数据来源:互联网公开数据 标签:机器翻译, 平行语料, 越南语, 西班牙语, 语言学, 自然语言处理, 语料库, 文本对齐 数据概述: 该数据集包含越南语和西班牙语的平行文本对,记录了两种语言的对应翻译示例。主要特征如下:...
-
印地语-英语平行语料库数据集-harshityadavjnu
2025年5月28日 30 79 50
印地语-英语平行语料库数据集-harshityadavjnu 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,印地语,英语,语料库,语言学,文本分析,跨语言 数据概述:该数据集包含印地语和英语的平行文本数据,旨在用于机器翻译、跨语言信息检索等任务。主要特征如下: 时间跨度:数据记录的时间跨度不明确,取决于语料库的收集时间。...
-
越南语-高棉语平行语料数据集Vietnamese-KhmerParallelCorpus-nguyentronghuy
2025年5月19日 30 86 78
越南语-高棉语平行语料数据集Vietnamese-KhmerParallelCorpus-nguyentronghuy 数据来源:互联网公开数据 标签:机器翻译, 语言学, 越南语, 高棉语, 语料库, 平行语料, 文本翻译, 自然语言处理 数据概述: 该数据集包含越南语和高棉语的平行文本,旨在为机器翻译、跨语言研究等任务提供支持。主要特征如下:...
-
多语言平行文本相似度评估数据集MultilingualParallelTextSimilarityEvaluationDataset-rookiejing
2025年5月11日 30 133 130
多语言平行文本相似度评估数据集MultilingualParallelTextSimilarityEvaluationDataset-rookiejing 数据来源:互联网公开数据 标签:平行语料, 文本相似度, 机器翻译, 多语言, 文本匹配, 西班牙语, 英语, 阿拉伯语, 豪萨语, 机器学习 数据概述:...
-
印地语-尼泊尔语机器翻译平行语料数据集Hindi-NepaliMachineTranslationParallelCorpus-thenepaliguy
2025年5月1日 30 51 49
印地语-尼泊尔语机器翻译平行语料数据集Hindi-NepaliMachineTranslationParallelCorpus-thenepaliguy 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 印地语, 尼泊尔语, 平行语料, 语言模型, 自然语言处理, 跨语言 数据概述: 该数据集包含印地语-...
-
俄语平行语料机器翻译数据集Russian-EnglishParallelCorpusforMachineTranslation-riapush
2025年5月1日 30 160 138
俄语平行语料机器翻译数据集Russian-EnglishParallelCorpusforMachineTranslation-riapush 数据来源:互联网公开数据 标签:机器翻译, 俄语, 英语, 平行语料, 自然语言处理, 文本对齐, 语言模型, 跨语言 数据概述:...
-
英语-泰卢固语平行语料翻译数据集English-TeluguParallelCorpus-krizzna69
2025年5月1日 30 51 46
英语-泰卢固语平行语料翻译数据集English-TeluguParallelCorpus-krizzna69 数据来源:互联网公开数据 标签:机器翻译, 语料库, 语言学, 文本翻译, 英语, 泰卢固语, 自然语言处理, 平行语料 数据概述: 该数据集包含英语与泰卢固语的平行文本,记录了两种语言之间的翻译对应关系。主要特征如下:...
-
英语-印地语平行语料库数据集English-HindiParallelCorpusDataset-rohitashchakra
2025年4月26日 30 45 8
英语-印地语平行语料库数据集English-HindiParallelCorpusDataset-rohitashchakra 数据来源:互联网公开数据 标签:自然语言处理,机器翻译,平行语料,印地语,英语,数据集,语言学,人工智能 数据概述: 该数据集包含英语和印地语的平行文本数据,记录了两种语言之间的对应翻译内容。主要特征如下:...
-
英文-印地语文本语料库
2025年4月25日 30 137 122
英文-印地语文本语料库 数据来源:互联网公开数据 标签:英文,印地语,文本语料库,机器翻译,语言处理,平行语料,数据清洗 数据概述: 本数据集包含来自两个公开来源的英文-印地语文本数据。其中,英文-印地语数据集基于印度理工学院孟买分校(IIT...
-
英汉平行语料数据集English-to-HindiParallelDataset-kuldeepsingharya
2025年4月25日 30 59 10
英汉平行语料数据集English-to-HindiParallelDataset-kuldeepsingharya 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,印地语,英语,平行语料,语言学,文本分析 数据概述: 该数据集包含了英语和印地语的平行文本数据,旨在用于机器翻译模型的训练和评估。主要特征如下:...
-
法文与英文平行语料数据集French-EnglishParallelCorpusDataset-mayankkalbande9
2025年4月24日 30 122 13
法文与英文平行语料数据集French-EnglishParallelCorpusDataset-mayankkalbande9 数据来源:互联网公开数据 标签:语言翻译,平行语料,数据集,自然语言处理,机器学习,双语研究,文本分析,人工智能 数据概述: 该数据集包含法文与英文的平行语料,记录了两种语言之间的对应翻译文本。主要特征如下:...
-
英语至阿萨姆语平行数据集
2025年2月14日 287 158 51
此文件中有数十万个英语到阿萨姆语的平行数据集。 注意-清理数据集 1_.eng.txt - 有更多并行的英语数据集 1_assamese.xt - 有更多并行的阿萨姆语数据集



