找到673个数据集

标签: 语言学

过滤结果
  • 文本清理数据集CleanedTextDataset-rahulk2197

    2025年4月25日   

    文本清理数据集CleanedTextDataset-rahulk2197 数据来源:互联网公开数据 标签:文本清理,数据集,自然语言处理,文本分析,机器学习,文本挖掘,数据预处理,语言学 数据概述:该数据集包含经过清理和标准化处理的文本数据,适用于自然语言处理和文本分析。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。...
    packageimg
  • LIWC文本特征分析数据集LIWCFeaturesDataset-bimangiri

    2025年4月25日   

    LIWC文本特征分析数据集LIWCFeaturesDataset-bimangiri 数据来源:互联网公开数据 标签:文本分析,心理学,语言学,数据集,自然语言处理,情绪分析,情感计算,社交媒体 数据概述: 该数据集包含了使用语言调查和字数统计(LIWC)软件处理后的文本特征数据,用于分析文本中的心理,情绪和语言模式。主要特征如下: 时间跨度:...
    packageimg
  • 幽默检测数据集HumorDetectionDataset-amaanmansuri

    2025年4月25日   

    幽默检测数据集HumorDetectionDataset-amaanmansuri 数据来源:互联网公开数据 标签:幽默检测,自然语言处理,数据集,机器学习,文本分析,情感识别,人工智能,语言学 数据概述: 该数据集包含来自多个互联网来源的文本数据,记录了不同形式的幽默内容及其标签,适用于幽默检测,文本情感分析等任务。主要特征如下:...
    packageimg
  • 罗马字母转泰卢固文字符数据集RomantoTeluguCharacterConversionDataset-dushyantsingh1

    2025年4月25日   

    罗马字母转泰卢固文字符数据集RomantoTeluguCharacterConversionDataset-dushyantsingh1 数据来源:互联网公开数据 标签:语言转换,字符编码,数据集,泰卢固语,自然语言处理,文本转换,机器学习,语言学 数据概述:...
    packageimg
  • 瓦里纳尔等人情绪维度数据集Valence-Arousal-DominanceDataset-josien

    2025年4月25日   

    瓦里纳尔等人情绪维度数据集Valence-Arousal-DominanceDataset-josien 数据来源:互联网公开数据 标签:情绪分析,情感计算,数据集,心理学,语言学,文本分析,情感词典,认知科学 数据概述:...
    packageimg
  • 僧伽罗语文本情感分析数据集SinhalaTextSentimentAnalysisDataset-dalinaranga

    2025年4月25日   

    僧伽罗语文本情感分析数据集SinhalaTextSentimentAnalysisDataset-dalinaranga 数据来源:互联网公开数据 标签:情感分析,文本挖掘,僧伽罗语,自然语言处理,数据集,机器学习,语言学,舆情分析 数据概述: 该数据集包含了僧伽罗语文本数据,用于情感分析任务。主要特征如下:...
    packageimg
  • 方言数据集DialectDataDataset-kitashinwtf

    2025年4月25日   

    方言数据集DialectDataDataset-kitashinwtf 数据来源:互联网公开数据 标签:方言,语言学,数据集,语音识别,机器学习,自然语言处理,语言研究,文化研究 数据概述: 该数据集包含来自不同地区方言的语音和文本数据,记录了多种方言的发音,词汇和语法特征。主要特征如下: 时间跨度:数据记录的时间范围从近年到现代。...
    packageimg
  • 阿拉伯语讽刺文本数据集-farisalahmdi

    2025年4月25日   

    阿拉伯语讽刺文本数据集-farisalahmdi 数据来源:互联网公开数据 标签:阿拉伯语,讽刺,文本分析,自然语言处理,情感分析,语言学,机器学习,社交媒体 数据概述:该数据集包含了阿拉伯语的讽刺文本数据,主要来源于社交媒体平台,新闻网站等。主要特征如下: 时间跨度:数据记录的时间范围跨度不固定,取决于数据来源。...
    packageimg
  • 拉脱维亚语问答数据集LatvianQuestion-AnswerDataset-valdispterisotais

    2025年4月25日   

    拉脱维亚语问答数据集LatvianQuestion-AnswerDataset-valdispterisotais 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,拉脱维亚语,文本分析,机器学习,语言学,信息检索 数据概述: 该数据集包含了拉脱维亚语的问答对,旨在促进拉脱维亚语自然语言处理领域的研究和应用。主要特征如下: 时间跨度:...
    packageimg
  • 印英双语语音翻译数据集SpokenHindiandEnglishTranslationsDataset-sachin1811

    2025年4月25日   

    印英双语语音翻译数据集SpokenHindiandEnglishTranslationsDataset-sachin1811 数据来源:互联网公开数据 标签:语音识别,自然语言处理,数据集,双语翻译,机器学习,语言学,人工智能,语音合成 数据概述:该数据集包含来自多个来源的印英双语语音数据,记录了日常对话和短语的语音及其对应的英文翻译。主要特征如下:...
    packageimg
  • 笑话综合数据集CombinedJokesDataset-ihdufxr2024

    2025年4月25日   

    笑话综合数据集CombinedJokesDataset-ihdufxr2024 数据来源:互联网公开数据 标签:笑话,数据集,自然语言处理,文本分析,娱乐,机器学习,语言学,文化研究 数据概述:该数据集包含来自多个来源的笑话数据,记录了各类笑话的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。...
    packageimg
  • 语音与演讲数据集VoiceandSpeechDataset-amitabh08

    2025年4月25日   

    语音与演讲数据集VoiceandSpeechDataset-amitabh08 数据来源:互联网公开数据 标签:语音识别,数据集,语言学,情感分析,人工智能,自然语言处理,机器学习,声音特征 数据概述: 该数据集包含来自公开来源的语音与演讲数据,记录了不同人的语音样本及其相关属性。主要特征如下: 时间跨度:数据记录的时间范围从近年到现代。...
    packageimg
  • 脱口秀表演脚本数据集Stand-upComedyScriptsDataset-aryagm1

    2025年4月24日   

    脱口秀表演脚本数据集Stand-upComedyScriptsDataset-aryagm1 数据来源:互联网公开数据 标签:脱口秀,喜剧,文本分析,自然语言处理,数据集,语言学,娱乐,表演艺术 数据概述: 该数据集包含了大量的脱口秀表演脚本,记录了不同喜剧演员的表演内容。主要特征如下: 时间跨度:数据记录的时间范围不定,涵盖了不同年代的脱口秀表演。...
    packageimg
  • 英西语翻译数据集English-SpanishTranslationDataset-nouranader

    2025年4月24日   

    英西语翻译数据集English-SpanishTranslationDataset-nouranader 数据来源:互联网公开数据 标签:翻译,语言学,数据集,机器学习,自然语言处理,文本分析,多语言支持,语言学习 数据概述:该数据集包含来自互联网的英西语翻译数据,记录了英语和西班牙语之间的文本对应关系。主要特征如下:...
    packageimg
  • 英印互译数据集EngHindiDataset-abcdef999

    2025年4月24日   

    英印互译数据集EngHindiDataset-abcdef999 数据来源:互联网公开数据 标签:机器翻译,数据集,印地语,英语,自然语言处理,文本数据,跨语言,语言学 数据概述: 该数据集包含了英语和印地语的平行语料,即互译的句子对。主要特征如下: 时间跨度:数据记录的时间范围不限,收录了不同时期,不同来源的文本。...
    packageimg
  • 文本分类数据集WordClassificationDataset-jcatumba

    2025年4月24日   

    文本分类数据集WordClassificationDataset-jcatumba 数据来源:互联网公开数据 标签:文本分类,自然语言处理,数据集,机器学习,文本分析,人工智能,语言学,数据科学 数据概述:该数据集包含来自多个来源的文本数据,记录了不同类别的文本信息,适用于文本分类任务。主要特征如下:...
    packageimg
  • 自然语言推理处理数据集ProcessedSNLIDataset-neverseepython

    2025年4月24日   

    自然语言推理处理数据集ProcessedSNLIDataset-neverseepython 数据来源:互联网公开数据 标签:自然语言处理,数据集,推理任务,机器学习,文本分析,人工智能,语言学,学术资源 数据概述:该数据集包含来自斯坦福自然语言推理(SNLI)项目的处理后的数据,记录了成对句子及它们的逻辑关系,适用于自然语言推理研究。主要特征如下:...
    packageimg
  • 埃及象形文字标注数据集LabeledEgyptianHieroglyphsDataset-muradcebeci

    2025年4月24日   

    埃及象形文字标注数据集LabeledEgyptianHieroglyphsDataset-muradcebeci 数据来源:互联网公开数据 标签:埃及象形文字,数据集,图像分析,文化研究,机器学习,视觉识别,学术资源,语言学 数据概述:该数据集包含来自公开资源的埃及象形文字图像及其标注信息,记录了不同象形文字的图像和对应的释义。主要特征如下:...
    packageimg
  • 印地语到印地语-英迪亚语翻译数据集HinditoHinglishTranslationDataset-parthplc

    2025年4月24日   

    印地语到印地语-英迪亚语翻译数据集HinditoHinglishTranslationDataset-parthplc 数据来源:互联网公开数据 标签:印地语,印地语-英迪亚语,数据集,自然语言处理,机器翻译,文本分析,语言学,人工智能 数据概述:该数据集包含来自多个来源的印地语到印地语-...
    packageimg
  • 法语维基百科数据集WikiFrenchDataset-manueldesiretaira

    2025年4月24日   

    法语维基百科数据集WikiFrenchDataset-manueldesiretaira 数据来源:互联网公开数据 标签:维基百科,法语,数据集,自然语言处理,文本分析,机器学习,语言学,学术资源 数据概述:该数据集包含来自法语维基百科的数据,记录了维基百科中各个条目的内容。主要特征如下: 时间跨度:数据记录的时间范围从2001年到2023年。...
    packageimg