俄语词义消歧语料库_RuSemCor

数据集概述

该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。

文件详解

  • 文件名称: sense_annotations.tsv
  • 文件格式: TSV (.tsv)
  • 字段映射: 包含DocumentId(文档ID)、SentenceId(句子ID)、Sentence(句子文本)、TokenNumber(词元序号)、TokenId(词元ID)、TokenText(词元文本)、LemmaAndPos(词形与词性)、Lemma(词形)、Pos(词性)、RwnEntryId(俄语WordNet条目ID)、RwnEntryXmlId(俄语WordNet条目XML ID)、RwnEntry(俄语WordNet条目)、RwnSynsetId(俄语WordNet同义词集ID)、RwnSynsetName(俄语WordNet同义词集名称)、RwnSenseId(俄语WordNet义项ID)、RwnSenseXmlId(俄语WordNet义项XML ID)等字段。
  • 文件名称: corpus.ttl.zip
  • 文件格式: ZIP压缩包 (.zip)
  • 内容说明: 包含语料库的TTL格式文件,可能存储原始或结构化的俄语语料数据。

适用场景

  • 自然语言处理研究: 用于俄语词义消歧算法的训练与评估
  • 计算语言学分析: 支持俄语词汇语义学、句法分析等领域的研究
  • 语料库语言学: 为俄语语料库的语义标注与资源建设提供参考
  • 多语言NLP系统开发: 辅助构建俄语自然语言处理工具(如机器翻译、信息检索)
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 176.58 MiB
最后更新 2025年12月26日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。