数据集

Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1

数据集概述

本数据集为适用于SpaCy环境的藏语语言模型工具包，由James Engels开发，属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语，替换音节分隔符为空格，包含停用词列表，当前版本对标准词汇处理效果良好，正开发更复杂版本，共含3个文件。

文件详解

文件名称：readme.docx
文件格式：DOCX
字段映射介绍：包含在Leipzig语料库挖掘器（iLCM）中使用该藏语模型的操作说明，需用户已安装iLCM。
文件名称：revised_stopwords.txt
文件格式：TXT
字段映射介绍：包含藏语停用词列表，示例内容如“འི་”“།”“དུ་”等藏语词汇。
文件名称：tibetan_tib_en_ver1-0.0.1.tar.gz
文件格式：GZ
字段映射介绍：藏语语言模型压缩包，版本为1-0.0.1，用于在SpaCy环境中部署藏语文本处理功能。

数据来源

Divergent Discourses项目（伦敦大学亚非学院与莱比锡大学联合，由英国AHRC和德国DFG资助）

适用场景

藏语文本处理：在SpaCy环境中实现藏语分词、词汇识别等基础自然语言处理任务。
社会科学文本挖掘：支持社会科学家通过iLCM工具对藏语语料进行文本分析。
藏语NLP工具开发：为更复杂的藏语自然语言处理模型提供基础工具包参考。
停用词研究：利用停用词列表优化藏语文本预处理流程，提升模型效果。

数据与资源

10148636.zipZIP
8.72 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	8.72 MiB
最后更新	2026年1月15日
创建于	2026年1月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。