找到8个数据集

分类: 互联网数据 标签: 语料库构建

过滤结果
  • 尼泊尔语文本语料库数据集

    2025年11月7日 30 85 16

    尼泊尔语文本语料库数据集_Nepali_Text_Corpus 数据来源:互联网公开数据 标签:尼泊尔语, 文本语料库, 自然语言处理, 语言学, 文本分析, 语料库构建, 文本挖掘, 语言建模 数据概述: 该数据集包含来自尼泊尔语文本的语料库,记录了尼泊尔语文本的数据。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态语料库。...
    packageimg
  • 梵文关系数据集

    2025年6月1日 30 68 29

    梵文关系数据集 数据来源:互联网公开数据 标签:梵文,句法分析,语料库,关系数据,NLP,语言学研究,文本分析 数据概述: 本数据集基于CoNLL-U格式文件构建,将原始的结构化文本数据转换为关系型数据格式,并存储为 Feather 文件以提高数据处理的效率和灵活性。数据集包含两个主要文件:words.feather 和...
    packageimg
  • 越南语文本语料库构建与分析数据集VietnameseTextCorpusConstructionandAnalysis-dinhnhattruong

    2025年5月30日 30 70 10

    越南语文本语料库构建与分析数据集VietnameseTextCorpusConstructionandAnalysis-dinhnhattruong 数据来源:互联网公开数据 标签:越南语, 文本语料库, 文本分析, 自然语言处理, 语料库构建, 文本摘要, 词嵌入, 语言模型 数据概述:...
    packageimg
  • 政府机构缩写及命名实体识别数据集GovernmentAcronymandNamedEntityRecognitionDataset-osciiart

    2025年5月28日 30 192 4

    政府机构缩写及命名实体识别数据集GovernmentAcronymandNamedEntityRecognitionDataset-osciiart 数据来源:互联网公开数据 标签:命名实体识别, 缩写识别, 文本分析, 自然语言处理, 机器学习, 政府机构, 数据标注, 语料库构建 数据概述:...
    packageimg
  • 孟加拉语文本语料库数据集BengaliTextCorpusDataset-mdshahriarkhan

    2025年5月19日 30 175 151

    孟加拉语文本语料库数据集BengaliTextCorpusDataset-mdshahriarkhan 数据来源:互联网公开数据 标签:孟加拉语, 文本语料库, 自然语言处理, 文本分析, 语言模型, 文本挖掘, 语料库构建, 文本数据 数据概述: 该数据集包含来自互联网的孟加拉语文本数据,记录了各种来源的孟加拉语文本片段。主要特征如下:...
    packageimg
  • 俄英双语翻译句子对数据集Russian-EnglishSentencePairs-ligtfeather

    2025年5月1日 30 70 66

    俄英双语翻译句子对数据集Russian-EnglishSentencePairs-ligtfeather 数据来源:互联网公开数据 标签:机器翻译, 俄语, 英语, 文本对齐, 自然语言处理, 语言模型, 双语语料库, 语料库构建 数据概述: 该数据集包含俄语和英语的句子对,旨在用于机器翻译模型的训练和评估。主要特征如下:...
    packageimg
  • 印尼语文本语料库数据集IndonesianTextCorpus-nandaerwinsyah

    2025年4月29日 30 9 6

    印尼语文本语料库数据集IndonesianTextCorpus-nandaerwinsyah 数据来源:互联网公开数据 标签:印尼语, 文本语料库, 自然语言处理, 文本分析, 语言学, 语料库构建, 文本挖掘, 语言模型 数据概述: 该数据集包含来自印尼语文本语料库的数据,记录了印尼语的句子示例。主要特征如下:...
    packageimg
  • IWSLT2017英语-中文翻译数据集

    2025年4月15日 30 88 57

    IWSLT2017英语-中文翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,NLP,多语种,英中翻译,语言模型训练,语料库 数据概述 本数据集是IWSLT2017翻译任务的英语-中文平行语料数据集,主要用于机器翻译研究和多语言自然语言处理任务。数据集包含三个独立的CSV文件,分别存储训练集、验证集和测试集。数据来源于Hugging...
    packageimg