找到79个数据集

标签: 语言技术

过滤结果
  • 高棉语文本图像标签数据集KhmerTextImageLabelDataset-raychannudam

    2025年4月24日   

    高棉语文本图像标签数据集KhmerTextImageLabelDataset-raychannudam 数据来源:互联网公开数据 标签:文本识别,图像处理,数据集,自然语言处理,机器学习,计算机视觉,语言技术,多模态学习 数据概述: 该数据集包含高棉语文本与图像的标签数据,记录了高棉语文本在图像中的位置和内容。主要特征如下:...
    packageimg
  • 尼泊尔语命名实体识别数据集NepaliNERDataset-rajanghimire

    2025年4月24日   

    尼泊尔语命名实体识别数据集NepaliNERDataset-rajanghimire 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,数据集,尼泊尔语,机器学习,文本分析,序列标注,语言技术 数据概述: 该数据集包含尼泊尔语的命名实体识别数据,记录了尼泊尔语文本中的人名,地名,组织名等实体信息。主要特征如下:...
    packageimg
  • 乌尔都语命名实体识别数据集UrduNERDataset-themohal

    2025年4月24日   

    乌尔都语命名实体识别数据集UrduNERDataset-themohal 数据来源:互联网公开数据 标签:自然语言处理,命名实体识别,数据集,文本分析,机器学习,语言技术,乌尔都语,实体识别 数据概述: 该数据集包含乌尔都语文本中的命名实体识别数据,记录了乌尔都语文本中的人名,地名,组织名等实体信息。主要特征如下:...
    packageimg
  • 多语言文本数据集Multi-LanguageTextDataset-farouqalzeer

    2025年4月24日   

    多语言文本数据集Multi-LanguageTextDataset-farouqalzeer 数据来源:互联网公开数据 标签:多语言,文本数据,自然语言处理,数据集,机器学习,文本分类,语言翻译,语言技术 数据概述: 该数据集包含来自多个不同语言的文本数据,记录了多种语言的自然语言文本内容。主要特征如下: 时间跨度:...
    packageimg
  • 质量控制语料库数据集QCCorpusDataset-ashokurlana

    2025年4月24日   

    质量控制语料库数据集QCCorpusDataset-ashokurlana 数据来源:互联网公开数据 标签:质量控制,语料库,数据集,自然语言处理,文本分析,机器学习,语言技术,数据标注 数据概述:该数据集包含来自质量控制领域的语料数据,记录了与质量控制相关的文本内容。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。...
    packageimg
  • 数据80K孟加拉语问答数据集80KBanglaQADataset-sihabhossan

    2025年4月24日   

    80K孟加拉语问答数据集80KBanglaQADataset-sihabhossan 数据来源:互联网公开数据 标签:问答系统,自然语言处理,孟加拉语,数据集,机器学习,语言技术,教育,学术研究 数据概述: 该数据集包含80,000条孟加拉语问答对,适用于自然语言处理,机器学习及问答系统的研究与开发。主要特征如下:...
    packageimg
  • NepaliSpellCheckandCorrectionDataset尼泊尔语拼写检查与纠正数据集-tha077bct007

    2025年4月24日   

    NepaliSpellCheckandCorrectionDataset尼泊尔语拼写检查与纠正数据集-tha077bct007 数据来源:互联网公开数据 标签:语言处理,拼写检查,数据集,自然语言处理,机器学习,纠错算法,文本分析,语言技术 数据概述:...
    packageimg
  • 英语-印地语翻译训练数据集English-HindiTranslationTrainingDataset-jaydee29

    2025年4月24日   

    英语-印地语翻译训练数据集English-HindiTranslationTrainingDataset-jaydee29 数据来源:互联网公开数据 标签:机器翻译,多语言,数据集,自然语言处理,语言技术,翻译模型,人工智能,语言学习 数据概述:该数据集包含英语到印地语的平行语料,主要用于机器翻译模型的训练和评估。主要特征如下:...
    packageimg
  • 英语-越南语双语平行文本数据集English-VietnameseParallelTextDataset-flightstar

    2025年4月24日   

    英语-越南语双语平行文本数据集English-VietnameseParallelTextDataset-flightstar 数据来源:互联网公开数据 标签:语言翻译,平行文本,数据集,自然语言处理,机器学习,双语研究,人工智能,语言技术 数据概述: 该数据集包含英语和越南语的双语平行文本,记录了两种语言之间的对应翻译关系。主要特征如下:...
    packageimg
  • 缅甸新闻语料数据集MizoNews14kDataset-robzchhangte

    2025年4月24日   

    缅甸新闻语料数据集MizoNews14kDataset-robzchhangte 数据来源:互联网公开数据 标签:新闻数据,自然语言处理,文本分类,数据集,机器学习,新闻分析,缅甸语,语言技术 数据概述: 该数据集包含来自缅甸的新闻文本数据,记录了缅甸新闻媒体发布的各类新闻内容。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg
  • 越南语情感分析数据集VLSP2018VietnameseSentimentAnalysisDataset-maiphngt

    2025年4月24日   

    越南语情感分析数据集VLSP2018VietnameseSentimentAnalysisDataset-maiphngt 数据来源:互联网公开数据 标签:情感分析,数据集,自然语言处理,机器学习,越南语,文本分类,情感计算,语言技术 数据概述:该数据集包含来自VLS P2018会议提供的越南语文本数据,记录了越南语文本的情感极性。主要特征如下:...
    packageimg
  • 阿帕卡清洗数据集Bhojpuri语音数据-satyamtiwarii

    2025年4月24日   

    阿帕卡清洗数据集Bhojpuri语音数据-satyamtiwarii 数据来源:互联网公开数据 标签:语音数据,自然语言处理,机器学习,数据集,语言模型,语音识别,人工智能,语言技术 数据概述: 该数据集包含来自阿帕卡(Alpaca)项目清洗后的语音数据,记录了比哈尔普尔语(Bhojpuri)的语音样本和对应的文本内容。主要特征如下:...
    packageimg
  • 可读性评估文本语料库ReadabilityCorpusDataset-vikazrajpurohit

    2025年4月24日   

    可读性评估文本语料库ReadabilityCorpusDataset-vikazrajpurohit 数据来源:互联网公开数据 标签:文本分析,可读性评估,数据集,自然语言处理,教育研究,机器学习,语料库,语言技术 数据概述: 该数据集包含用于可读性评估的文本数据,记录了多种不同难度级别的文本样本。主要特征如下: 时间跨度:...
    packageimg
  • 拼写纠正数据集SpellCorrectionDataset-zerowith

    2025年4月24日   

    拼写纠正数据集SpellCorrectionDataset-zerowith 数据来源:互联网公开数据 标签:自然语言处理,拼写纠正,数据集,文本处理,机器学习,语言技术,数据挖掘,计算机科学 数据概述: 该数据集专注于拼写纠正任务,包含大量包含拼写错误的文本数据及其对应的正确文本。主要特征如下:...
    packageimg
  • 越南语翻译数据集VietnameseTranslateDataset-tranvannhan1911

    2025年4月24日   

    越南语翻译数据集VietnameseTranslateDataset-tranvannhan1911 数据来源:互联网公开数据 标签:语言学习,翻译,数据集,自然语言处理,机器学习,越南语,文本分析,语言技术 数据概述: 该数据集包含来自越南语翻译项目的数据,记录了越南语与其它语言(如英语,中文等)之间的翻译数据。主要特征如下:...
    packageimg
  • 数据2025大规模多语言模型基准MMLM2025真实标注数据集MMLM2025GroundTruthDataset-tononnh

    2025年4月24日   

    2025大规模多语言模型基准MMLM2025真实标注数据集MMLM2025GroundTruthDataset-tononnh 数据来源:互联网公开数据 标签:多语言模型,自然语言处理,数据集,机器学习,文本标注,基准测试,人工智能,语言技术 数据概述: 该数据集由2025年大规模多语言模型基准(MMLM...
    packageimg
  • 越南语有害评论数据集ToxicCommentVietnameseDataset-trandong2932002

    2025年4月24日   

    越南语有害评论数据集ToxicCommentVietnameseDataset-trandong2932002 数据来源:互联网公开数据 标签:有害评论,文本分析,数据集,机器学习,自然语言处理,情感分析,语言技术,网络安全 数据概述: 该数据集包含来自越南语互联网平台的评论数据,记录了用户发布的有害内容,如仇恨言论,骚扰,歧视等。主要特征如下:...
    packageimg
  • 情感识别与文本分析数据集CREMATextCSVDataset-nytgaming

    2025年4月24日   

    情感识别与文本分析数据集CREMATextCSVDataset-nytgaming 数据来源:互联网公开数据 标签:情感分析,自然语言处理,数据集,文本挖掘,机器学习,情感计算,语言技术,人工智能 数据概述: 该数据集包含来自CREMA-D项目的文本数据,记录了语音情感识别任务中的文本内容及其对应的情感标签。主要特征如下:...
    packageimg
  • 双语文本对齐数据集BitextDataCollection-imaadhasan

    2025年4月24日   

    双语文本对齐数据集BitextDataCollection-imaadhasan 数据来源:互联网公开数据 标签:自然语言处理,机器翻译,数据集,文本对齐,双语数据,语言技术,数据挖掘,人工智能 数据概述: 该数据集包含来自多个来源的双语文本对齐数据,记录了不同语言之间的文本对应关系。主要特征如下:...
    packageimg
  • 大语言模型性能基准评测数据集-dustalov

    2025年4月24日   

    大语言模型性能基准评测数据集-dustalov 数据来源:互联网公开数据 标签:大语言模型,模型评估,基准测试,机器反馈,人类反馈,语言技术,模型比较 数据概述: 本数据集包含了一系列基于精心挑选的提示(prompts)和不同大语言模型(LLM)的成对响应比较结果。这些比较结果结合了人类和机器的反馈,旨在构建一个简洁的大语言模型排行榜(LLMFAO...
    packageimg