西班牙语COVID_19推文职业检测黄金标准标注数据集2021

数据集概述

本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文,按训练集、验证集、测试集以六十比二十比二十比例划分,涵盖职业分类与命名实体识别两个子任务的标注数据,同时提供多格式文件及工具脚本,支持自然语言处理模型训练与评估。

文件详解

数据集为压缩包格式,包含两个子任务相关文件,具体说明如下: - subtask-1(职业分类子任务): - 训练集、验证集各一个TSV文件,包含tweet_id和class字段 - train-valid-txt-files:训练与验证推文文本文件目录,按数据集划分设子目录 - train-valid-txt-files-english:训练与验证推文机器翻译英文文本目录 - test-background-txt-files:测试与背景推文文本目录,需提交预测结果 - subtask-2(职业命名实体识别子任务): - brat:按数据集划分的Brat格式标注目录 - TSV:训练集、验证集各一个TSV文件,包含tweet_id、begin、end、type、extraction字段 - BIO:按数据集划分的BIO格式标注文件 - train-valid-txt-files:训练与验证推文文本文件目录 - train-valid-txt-files-english:训练与验证推文机器翻译英文文本目录 - test-background-txt-files:测试与背景推文文本目录,需提交预测结果 - 辅助工具: - brat_to_conll.py:将Brat格式转换为CONLL格式的脚本

适用场景

  • 自然语言处理研究:用于职业命名实体识别模型训练与评估
  • 社交媒体文本分析:探索COVID-19相关推文中职业信息分布特征
  • 多语言模型开发:基于西班牙语推文数据构建跨语言职业检测模型
  • 医疗健康研究:分析不同职业群体在COVID-19期间的社交媒体表达
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 44.4 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。