找到673个数据集

标签: 语言学

过滤结果
  • 多语言问答数据集-TyDiQA可回答问题子集

    2025年4月26日   

    多语言问答数据集-TyDiQA可回答问题子集 数据来源:互联网公开数据 标签:自然语言处理,NLP,问答系统,机器阅读理解,多语言,文本数据,AI,语言学,TydiQA,Hugging Face 数据概述: Answerable-TyDiQA数据集是TyDi QA数据集的子集,TyDi QA是一个涵盖11种语言的问答数据集。Answerable-...
    packageimg
  • 命名实体识别数据集NER-meharihailemariam

    2025年4月26日   

    命名实体识别数据集NER-meharihailemariam 数据来源:互联网公开数据 标签:自然语言处理,命名实体识别,数据集,文本分析,机器学习,信息抽取,语言学,文本标注 数据概述: 该数据集包含用于命名实体识别(NER)任务的文本数据,记录了文本中各种命名实体的详细信息。主要特征如下: 时间跨度:...
    packageimg
  • 语法修正说服文本数据集Grammar-CorrectedPersuasiveTextDataset2023-defdet

    2025年4月26日   

    语法修正说服文本数据集Grammar-CorrectedPersuasiveTextDataset2023-defdet 数据来源:互联网公开数据 标签:语法修正,说服文本,自然语言处理,文本分析,机器学习,语言学,数据集,文本生成 数据概述: 该数据集包含经过语法修正的说服性文本数据,适用于自然语言处理和文本生成等任务。主要特征如下:...
    packageimg
  • 词语难度评估数据集DifficultiesofWordsDataset-natsumii

    2025年4月26日   

    词语难度评估数据集DifficultiesofWordsDataset-natsumii 数据来源:互联网公开数据 标签:语言学习,词汇难度,数据集,教育技术,自然语言处理,语言学,文本分析,认知科学 数据概述: 该数据集包含来自语言学研究领域的词语难度评估数据,记录了不同词语的难度等级及相关特征。主要特征如下:...
    packageimg
  • 数据5000语料树结构数据集5000ConstituencyandDependencyTreesDataset-pragyanshusingh01

    2025年4月26日   

    5000语料树结构数据集5000ConstituencyandDependencyTreesDataset-pragyanshusingh01 数据来源:互联网公开数据 标签:语料库,句法分析,依存句法,数据集,自然语言处理,人工智能,语言学,计算机科学...
    packageimg
  • 孟加拉语文本摘要模型数据集BanglaTextSummarizationModelDataset-devtousif

    2025年4月26日   

    孟加拉语文本摘要模型数据集BanglaTextSummarizationModelDataset-devtousif 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,机器学习,深度学习,语言学,机器翻译,人工智能 数据概述: 该数据集包含来自互联网公开资源的孟加拉语文本及其对应的摘要,主要用于文本摘要生成模型的训练和评估。主要特征如下:...
    packageimg
  • 乌尔都语罗马字符文本数据集RomanUrduDatasets-sameedrazi

    2025年4月26日   

    乌尔都语罗马字符文本数据集RomanUrduDatasets-sameedrazi 数据来源:互联网公开数据 标签:乌尔都语,罗马字符,文本数据,自然语言处理,NLP,语言学,数据集,文本分析 数据概述: 该数据集包含使用罗马字符书写的乌尔都语文本数据,旨在促进乌尔都语的自然语言处理研究。主要特征如下:...
    packageimg
  • 社交媒体仇恨言论与冒犯性语言数据集-suchindrakumar057

    2025年4月26日   

    社交媒体仇恨言论与冒犯性语言数据集-suchindrakumar057 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体,文本分析,自然语言处理,情感分析,机器学习,语言学 数据概述: 该数据集包含来自社交媒体平台的文本数据,记录了用户发布的仇恨言论和冒犯性语言。主要特征如下: 时间跨度:数据记录的时间范围不定,取决于数据抓取的时间段。...
    packageimg
  • 文本摘要数据集TextSummarizationDataset-cuitengfeui

    2025年4月26日   

    文本摘要数据集TextSummarizationDataset-cuitengfeui 数据来源:互联网公开数据 标签:文本摘要,数据集,自然语言处理,机器学习,人工智能,语言学,信息提取,文本分析 数据概述:该数据集包含来自多个来源的文本摘要数据,记录了原文本及其对应的摘要。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。...
    packageimg
  • 英印双语词汇数据集2023英印双语词汇数据集2023-tihsrahly

    2025年4月26日   

    英印双语词汇数据集2023英印双语词汇数据集2023-tihsrahly 数据来源:互联网公开数据 标签:英印双语,词汇,数据集,语言学,自然语言处理,机器翻译,教育,多语言学习 数据概述:该数据集包含英印双语词汇数据,记录了英语和印地语词汇的对应关系及相关信息。主要特征如下: 时间跨度:数据记录的时间范围从2023年。...
    packageimg
  • 印度姓名数据集SixtyThousandUniqueIndianNamesDataset-surajpratap

    2025年4月26日   

    印度姓名数据集SixtyThousandUniqueIndianNamesDataset-surajpratap 数据来源:互联网公开数据 标签:印度姓名,数据集,文化研究,文本分析,语言学,人口统计,机器学习,数据科学 数据概述:该数据集包含来自互联网的6万个独特的印度姓名数据,记录了不同地区和文化背景下的印度人姓名。主要特征如下:...
    packageimg
  • 秘鲁手语静态字母数据集PeruvianSignLanguageStaticAlphabetDataset-kito12

    2025年4月26日   

    秘鲁手语静态字母数据集PeruvianSignLanguageStaticAlphabetDataset-kito12 数据来源:互联网公开数据 标签:手语,数据集,图像识别,计算机视觉,机器学习,教育,语言学,秘鲁文化 数据概述:该数据集包含秘鲁手语的静态字母图像数据,记录了秘鲁手语中各个字母的图像信息。主要特征如下:...
    packageimg
  • 葡萄牙语词频列表数据集15000PortugueseFrequencyListDataset-jacobgifford

    2025年4月26日   

    葡萄牙语词频列表数据集15000PortugueseFrequencyListDataset-jacobgifford 数据来源:互联网公开数据 标签:葡萄牙语,词频,语言学,自然语言处理,数据集,文本分析,语言学习,词汇研究 数据概述:...
    packageimg
  • 泰米尔语短篇故事机器阅读理解数据集TamilShortStoryMRCDataset-charlesey

    2025年4月26日   

    泰米尔语短篇故事机器阅读理解数据集TamilShortStoryMRCDataset-charlesey 数据来源:互联网公开数据 标签:泰米尔语,短篇故事,机器阅读理解,自然语言处理,数据集,文本分析,语言学,人工智能 数据概述: 该数据集包含泰米尔语短篇故事数据,旨在用于机器阅读理解(MRC)任务。主要特征如下:...
    packageimg
  • 英语缩写与全称对照数据集EnglishContractionsDataset-hadimotamedi

    2025年4月26日   

    英语缩写与全称对照数据集EnglishContractionsDataset-hadimotamedi 数据来源:互联网公开数据 标签:语言学,数据集,文本分析,自然语言处理,英语学习,词法研究,教育工具,词典编纂 数据概述: 该数据集包含英语中常见的缩写形式及其对应的全称,记录了英语语言中的缩写用法及其原词。主要特征如下:...
    packageimg
  • 乌尔都语文本词频统计数据集-乌尔都语文本语料库

    2025年4月26日   

    乌尔都语文本词频统计数据集-乌尔都语文本语料库 数据来源:互联网公开数据 标签:乌尔都语,文本分析,自然语言处理,词频统计,语料库,语言学,N-gram 数据概述: 本数据集基于在线报纸和书籍的抓取构建的乌尔都语语料库,包含了不同长度的N-gram及其对应的出现频率。数据文件包括:...
    packageimg
  • 星际迷航剧本数据集StarTrekScriptsDataset-tamarafingerlin

    2025年4月26日   

    星际迷航剧本数据集StarTrekScriptsDataset-tamarafingerlin 数据来源:互联网公开数据 标签:科幻,剧本,数据集,文本分析,自然语言处理,影视剧,文化研究,语言学 数据概述: 该数据集包含了《星际迷航》系列电视剧和电影的剧本,记录了各个剧集和电影的对话,场景描述等内容。主要特征如下:...
    packageimg
  • 比喻性名词短语数据集BNFigurativeNPDataset-ghazalismydaughter

    2025年4月26日   

    比喻性名词短语数据集BNFigurativeNPDataset-ghazalismydaughter 数据来源:互联网公开数据 标签:语言学,自然语言处理,数据集,比喻性语言,名词短语,语义分析,文本挖掘,机器学习 数据概述: 该数据集包含来自语言学研究和自然语言处理领域的比喻性名词短语数据,记录了各类比喻性表达和其语义特征。主要特征如下:...
    packageimg
  • 英语语言文本数据集LanguageDataDataset-danruan

    2025年4月26日   

    英语语言文本数据集LanguageDataDataset-danruan 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,语言学,机器学习,文本挖掘,英语,语料库 数据概述: 该数据集包含来自多种来源的英语文本数据,记录了不同类型的英语文本内容。主要特征如下:...
    packageimg
  • 英文翻译矛盾数据集EnglishTranslationContradictionDataset-sadiq18

    2025年4月26日   

    英文翻译矛盾数据集EnglishTranslationContradictionDataset-sadiq18 数据来源:互联网公开数据 标签:翻译,机器翻译,数据集,自然语言处理,文本分析,矛盾检测,语言学,英语 数据概述: 该数据集包含了英语文本及其对应的翻译,旨在研究翻译中的矛盾和不一致性。主要特征如下:...
    packageimg