数据集概述
本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。
文件详解
- location_mnemonics.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含为440个孟加拉语地点定制的助记符,用于提升基于远程监督的地点关系抽取性能
- annotated_corpus.csv
- 文件格式:CSV
- 字段映射介绍:包含90,441条处理后的文本条目,每条包含带NER(如PER人物、LOC地点、NP名词短语)和POS标注的格式化句子
- KB.csv
- 文件格式:CSV
- 字段映射介绍:包含63,256条知识库条目,每条记录实体对(entity1、entity2)及对应的关系名称(relation_name)
适用场景
- 孟加拉语关系抽取模型训练: 用于开发和优化针对孟加拉语的关系抽取算法,验证模型在低资源语言上的性能
- 远程监督关系抽取研究: 利用地点助记符探索远程监督框架下的地点实体关系抽取方法
- 多语言NLP资源建设: 补充低资源语言(孟加拉语)的结构化知识库与标注语料资源
- NLP标注工具效果验证: 测试NER、POS等预处理工具在孟加拉语文本上的标注准确性
- 低资源语言NLP技术研究: 作为基准数据集支撑孟加拉语等低资源语言的自然语言处理技术发展