数据集概述
本数据集包含巴斯克语时间信息标注系统bTime的相关资源、结果及输出。bTime是首个遵循ISO-TimeML标准的巴斯克语时间信息标注系统,采用机器学习与规则相结合的混合架构,为巴斯克语时间信息处理研究提供支持。
文件详解
该数据集包含多个目录和文件,具体说明如下:
- 核心目录与文件类型:
- Corpus-EusTimebank/目录:包含EusTimeBank语料库,分为Train、Devel、Test三个子集,提供XML格式标注文档(如Corpus-Gold-EusTimeBank-XML/目录下的.xml文件)和Tab格式标注数据(如Corpus-Gold-EusTimeBank-Tab/目录下的.tab文件)
- HeidelTime-Resources-Basque/目录:包含时间标注所需的资源文件,分为repattern/(正则表达式模式文件,如resources_repattern_reMonth.txt)、rules/(规则文件,如resources_rules_daterules.txt)、normalization/(归一化文件,如resources_normalization_normYearBC.txt)子目录
- bTime-Gold-Test/目录:包含测试集的黄金标注文件(.tml格式)
- bTime-Predictions-Test/目录:包含测试集的预测结果文件,分为W1-ALL/、W1-BPO/、W1-FLP/子目录
- 主要文件格式:.tml(434个,占比约六十四点七八%)、.txt(125个,占比约十八点六六%)、.xml(60个,占比约八点九六%)、.tab(48个,占比约七点一六%)
适用场景
- 自然语言处理研究:用于巴斯克语时间信息标注、抽取与归一化任务的模型训练与评估
- 计算语言学研究:探索混合架构(机器学习+规则)在低资源语言时间处理中的应用效果
- 语料库语言学研究:分析巴斯克语真实文本中的时间表达特征与规律
- 多语言时间标注系统开发:为其他语言时间标注系统的构建提供资源设计与架构参考