数据集概述
本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。
文件详解
- 文件名称:readme.docx
- 文件格式:DOCX
- 字段映射介绍:包含在Leipzig语料库挖掘器(iLCM)中使用该藏语模型的操作说明,需用户已安装iLCM。
- 文件名称:revised_stopwords.txt
- 文件格式:TXT
- 字段映射介绍:包含藏语停用词列表,示例内容如“འི་”“།”“དུ་”等藏语词汇。
- 文件名称:tibetan_tib_en_ver1-0.0.1.tar.gz
- 文件格式:GZ
- 字段映射介绍:藏语语言模型压缩包,版本为1-0.0.1,用于在SpaCy环境中部署藏语文本处理功能。
数据来源
Divergent Discourses项目(伦敦大学亚非学院与莱比锡大学联合,由英国AHRC和德国DFG资助)
适用场景
- 藏语文本处理:在SpaCy环境中实现藏语分词、词汇识别等基础自然语言处理任务。
- 社会科学文本挖掘:支持社会科学家通过iLCM工具对藏语语料进行文本分析。
- 藏语NLP工具开发:为更复杂的藏语自然语言处理模型提供基础工具包参考。
- 停用词研究:利用停用词列表优化藏语文本预处理流程,提升模型效果。