数据集概述
本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文,按训练集、验证集、测试集以六十比二十比二十比例划分,涵盖职业分类与命名实体识别两个子任务的标注数据,同时提供多格式文件及工具脚本,支持自然语言处理模型训练与评估。
文件详解
数据集为压缩包格式,包含两个子任务相关文件,具体说明如下:
- subtask-1(职业分类子任务):
- 训练集、验证集各一个TSV文件,包含tweet_id和class字段
- train-valid-txt-files:训练与验证推文文本文件目录,按数据集划分设子目录
- train-valid-txt-files-english:训练与验证推文机器翻译英文文本目录
- test-background-txt-files:测试与背景推文文本目录,需提交预测结果
- subtask-2(职业命名实体识别子任务):
- brat:按数据集划分的Brat格式标注目录
- TSV:训练集、验证集各一个TSV文件,包含tweet_id、begin、end、type、extraction字段
- BIO:按数据集划分的BIO格式标注文件
- train-valid-txt-files:训练与验证推文文本文件目录
- train-valid-txt-files-english:训练与验证推文机器翻译英文文本目录
- test-background-txt-files:测试与背景推文文本目录,需提交预测结果
- 辅助工具:
- brat_to_conll.py:将Brat格式转换为CONLL格式的脚本
适用场景
- 自然语言处理研究:用于职业命名实体识别模型训练与评估
- 社交媒体文本分析:探索COVID-19相关推文中职业信息分布特征
- 多语言模型开发:基于西班牙语推文数据构建跨语言职业检测模型
- 医疗健康研究:分析不同职业群体在COVID-19期间的社交媒体表达