找到676个数据集

标签: 语言学

过滤结果
  • 汉字与拉丁文翻译数据集Hi-TranslitDataset-jaydee29

    2025年4月23日   

    汉字与拉丁文翻译数据集Hi-TranslitDataset-jaydee29 数据来源:互联网公开数据 标签:汉字转写,拉丁文翻译,数据集,自然语言处理,文本转换,机器翻译,语言学,字符编码 数据概述: 该数据集包含汉字与拉丁文之间的翻译数据,适用于研究汉字转写为拉丁文的技术。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。...
    packageimg
  • 葡萄牙语文本分类数据集PortugueseTextClassificationDataset-rookiejing

    2025年4月23日   

    葡萄牙语文本分类数据集PortugueseTextClassificationDataset-rookiejing 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,语言模型,机器学习,多语言,文本分析,语言学 数据概述: 该数据集包含来自葡萄牙语互联网的文本数据,专门用于葡萄牙语的文本分类任务。主要特征如下:...
    packageimg
  • 词频统计数据集WordFrequenciesDataset-patricknormile

    2025年4月23日   

    词频统计数据集WordFrequenciesDataset-patricknormile 数据来源:互联网公开数据 标签:文本分析,词频统计,自然语言处理,数据集,数据挖掘,语言学,机器学习,文本预处理 数据概述: 该数据集包含来自多个文本来源的词频统计数据,记录了不同语料库中单词出现的频率。主要特征如下:...
    packageimg
  • 孟加拉语词汇数据集BanglaWordsDataset2-mdabrarshahriarkabir

    2025年4月23日   

    孟加拉语词汇数据集BanglaWordsDataset2-mdabrarshahriarkabir 数据来源:互联网公开数据 标签:语言学,词汇,数据集,文本分析,自然语言处理,语言研究,机器学习,教育 数据概述: 该数据集包含来自孟加拉语词汇库的数据,记录了孟加拉语词汇的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从20世纪初到现代。...
    packageimg
  • 辩论场景句子数据集DebateSentencesDataset-vdudani

    2025年4月23日   

    辩论场景句子数据集DebateSentencesDataset-vdudani 数据来源:互联网公开数据 标签:辩论,句子,文本分析,自然语言处理,数据集,情感分析,语言学,机器学习 数据概述: 该数据集包含了从公开辩论场景中提取的句子,旨在用于文本分析和自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间范围不限,涵盖了不同时期的辩论场景。...
    packageimg
  • 英法语言对比数据集EnglishandFrenchLanguageComparisonDataset-jayantiprasad

    2025年4月23日   

    英法语言对比数据集EnglishandFrenchLanguageComparisonDataset-jayantiprasad 数据来源:互联网公开数据 标签:语言学,数据集,对比分析,翻译,自然语言处理,机器学习,学术资源,语言研究 数据概述:该数据集包含来自互联网的英法语言对比数据,记录了英语和法语在词汇,语法,语义等方面的不同点。主要特征如下:...
    packageimg
  • 词典数据集LexiconDataDataset-cakrulgaming

    2025年4月23日   

    词典数据集LexiconDataDataset-cakrulgaming 数据来源:互联网公开数据 标签:词典,数据集,自然语言处理,语言学,词汇研究,文本分析,教育,机器学习 数据概述: 该数据集包含来自多个来源的词典数据,记录了大量词汇的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从20世纪初到现代。...
    packageimg
  • 阿加乌格纳手写字符识别数据集

    2025年4月23日   

    阿加乌格纳手写字符识别数据集 数据来源:互联网公开数据 标签:手写字符, 阿加乌格纳, 字符识别, 图像识别, 语言学, 机器学习, 数据集, 少数民族语言 数据概述: 本数据集包含阿加乌格纳(Agawugna)手写字符的图像数据,旨在为研究人员提供一个用于字符识别和机器学习的资源。...
    packageimg
  • 数据10000条样本语言识别数据集-amitverma2030

    2025年4月23日   

    10000条样本语言识别数据集-amitverma2030 数据来源:互联网公开数据 标签:语言识别,数据集,自然语言处理,文本分类,机器学习,文本分析,语言学,人工智能 数据概述: 该数据集包含10000条文本样本,用于语言识别任务。主要特征如下: 时间跨度:数据无明确的时间范围,为静态数据集。 地理范围:数据涵盖多种语言,文本来源多样。...
    packageimg
  • 英语和摩洛哥塔马兹格特与塔加拜勒特翻译数据集-thedevastator

    2025年4月23日   

    英语和摩洛哥塔马兹格特与塔加拜勒特翻译数据集-thedevastator 数据来源:互联网公开数据 标签:翻译,英语,摩洛哥塔马兹格特,塔加拜勒特,数据集,机器翻译,语言学,教育 数据概述: 本数据集来源于Mozilla的Pontoon本地化平台,名为imone/ARB指令-...
    packageimg
  • 德语国际音标发音词典数据集GermanIPAPronunciationDictionaryDataset-cdminix

    2025年4月23日   

    德语国际音标发音词典数据集GermanIPAPronunciationDictionaryDataset-cdminix 数据来源:互联网公开数据 标签:德语,发音,国际音标,词典,语言学,语音学,数据集,语音识别 数据概述:该数据集包含德语单词及其对应的国际音标(IPA)发音信息,旨在为德语语音研究和语音合成提供基础数据。主要特征如下:...
    packageimg
  • 聊天用语数据集ChatSlangDataset-muhammadbilal6305

    2025年4月23日   

    聊天用语数据集ChatSlangDataset-muhammadbilal6305 数据来源:互联网公开数据 标签:聊天用语,社交媒体,数据集,自然语言处理,机器学习,文本分析,语言学,沟通研究 数据概述:该数据集包含来自社交媒体平台的聊天用语数据,记录了人们在聊天中使用的非正式语言,缩写和俚语。主要特征如下:...
    packageimg
  • 罗马乌尔都语文本数据集-akarami

    2025年4月23日   

    罗马乌尔都语文本数据集-akarami 数据来源:互联网公开数据 标签:乌尔都语,罗马乌尔都语,文本数据,自然语言处理,语言学,数据集,机器学习,文本分析 数据概述: 该数据集包含了用罗马字母书写的乌尔都语文本。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了现代乌尔都语的使用。...
    packageimg
  • 中文文本词频数据集TF-Word-FrequencyDataset-ludwing129

    2025年4月23日   

    中文文本词频数据集TF-Word-FrequencyDataset-ludwing129 数据来源:互联网公开数据 标签:文本分析,词频统计,数据集,自然语言处理,语言学,机器学习,文本挖掘,中文处理 数据概述: 该数据集包含来自多个中文文本源的词频统计信息,记录了常见中文词汇在不同文本中的出现频率。主要特征如下:...
    packageimg
  • 命名实体识别数据集NamedEntityRecognitionDataset-muhammadabubakar627

    2025年4月23日   

    命名实体识别数据集NamedEntityRecognitionDataset-muhammadabubakar627 数据来源:互联网公开数据 标签:命名实体识别,数据集,自然语言处理,文本分析,机器学习,信息提取,人工智能,语言学 数据概述: 该数据集包含来自互联网和公开文本资源的标注数据,记录了各种文本中的命名实体。主要特征如下: 时间跨度:...
    packageimg
  • 德里语言分布数据集DelhiLanguagesDataset-harshitsati

    2025年4月23日   

    德里语言分布数据集DelhiLanguagesDataset-harshitsati 数据来源:互联网公开数据 标签:语言分布,人口统计,数据集,社会研究,数据分析,语言学,城市研究 数据概述: 该数据集包含来自德里地区的语言使用数据,记录了德里地区居民的主要语言使用情况。主要特征如下: 时间跨度:数据记录的时间范围从2011年到2021年。...
    packageimg
  • 印地文-英文双语数据集Hinglish-EnglishDataset-arpcode

    2025年4月23日   

    印地文-英文双语数据集Hinglish-EnglishDataset-arpcode 数据来源:互联网公开数据 标签:双语数据集,语言学,自然语言处理,机器翻译,文本分析,数据集,印度语言,国际交流 数据概述:该数据集包含来自多个来源的印地文-英文双语数据,主要用于研究和开发印地文与英文之间的翻译和文本分析。主要特征如下:...
    packageimg
  • 自然语言处理词性标注数据集-gagnadrengur

    2025年4月23日   

    自然语言处理词性标注数据集-gagnadrengur 数据来源:互联网公开数据 标签:词性标注,POS,自然语言处理,NLP,词法分析,语言学,文本分析 数据概述: 本数据集包含用于词性标注的参考数据,适用于自然语言处理中的词法分析。词性标注是指为文本中的每个词分配一个语法类别(词性),如名词、动词、形容词等。该数据集可用于训练和评估词性标注器的性能。...
    packageimg
  • 帕尔辛卢英语到波斯语翻译训练数据集ParsinluEnglishtoFarsiTranslationTrainDataset-nouriehmadanian

    2025年4月23日   

    帕尔辛卢英语到波斯语翻译训练数据集ParsinluEnglishtoFarsiTranslationTrainDataset-nouriehmadanian 数据来源:互联网公开数据 标签:翻译数据集,英语到波斯语,自然语言处理,机器学习,数据科学,语言学,文本分析,人工智能 数据概述:...
    packageimg
  • 语言翻译数据集2010-2020数据集-amankumar2002

    2025年4月23日   

    语言翻译数据集2010-2020数据集-amankumar2002 数据来源:互联网公开数据 标签:语言翻译,数据集,自然语言处理,机器学习,文本分析,语言学,多语言数据,文本翻译 数据概述:该数据集包含来自多个公开来源的语言翻译数据,记录了多种语言之间的翻译文本。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg