Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1

数据集概述

本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。

文件详解

  • 文件名称:readme.docx
  • 文件格式:DOCX
  • 字段映射介绍:包含在Leipzig语料库挖掘器(iLCM)中使用该藏语模型的操作说明,需用户已安装iLCM。
  • 文件名称:revised_stopwords.txt
  • 文件格式:TXT
  • 字段映射介绍:包含藏语停用词列表,示例内容如“འི་”“།”“དུ་”等藏语词汇。
  • 文件名称:tibetan_tib_en_ver1-0.0.1.tar.gz
  • 文件格式:GZ
  • 字段映射介绍:藏语语言模型压缩包,版本为1-0.0.1,用于在SpaCy环境中部署藏语文本处理功能。

数据来源

Divergent Discourses项目(伦敦大学亚非学院与莱比锡大学联合,由英国AHRC和德国DFG资助)

适用场景

  • 藏语文本处理:在SpaCy环境中实现藏语分词、词汇识别等基础自然语言处理任务。
  • 社会科学文本挖掘:支持社会科学家通过iLCM工具对藏语语料进行文本分析。
  • 藏语NLP工具开发:为更复杂的藏语自然语言处理模型提供基础工具包参考。
  • 停用词研究:利用停用词列表优化藏语文本预处理流程,提升模型效果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 8.72 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。