数据集

西班牙语COVID_19推文职业检测黄金标准标注数据集2021

数据集概述

本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文，按训练集、验证集、测试集以六十比二十比二十比例划分，涵盖职业分类与命名实体识别两个子任务的标注数据，同时提供多格式文件及工具脚本，支持自然语言处理模型训练与评估。

文件详解

数据集为压缩包格式，包含两个子任务相关文件，具体说明如下： - subtask-1（职业分类子任务）： - 训练集、验证集各一个TSV文件，包含tweet_id和class字段 - train-valid-txt-files：训练与验证推文文本文件目录，按数据集划分设子目录 - train-valid-txt-files-english：训练与验证推文机器翻译英文文本目录 - test-background-txt-files：测试与背景推文文本目录，需提交预测结果 - subtask-2（职业命名实体识别子任务）： - brat：按数据集划分的Brat格式标注目录 - TSV：训练集、验证集各一个TSV文件，包含tweet_id、begin、end、type、extraction字段 - BIO：按数据集划分的BIO格式标注文件 - train-valid-txt-files：训练与验证推文文本文件目录 - train-valid-txt-files-english：训练与验证推文机器翻译英文文本目录 - test-background-txt-files：测试与背景推文文本目录，需提交预测结果 - 辅助工具： - brat_to_conll.py：将Brat格式转换为CONLL格式的脚本

适用场景

自然语言处理研究：用于职业命名实体识别模型训练与评估
社交媒体文本分析：探索COVID-19相关推文中职业信息分布特征
多语言模型开发：基于西班牙语推文数据构建跨语言职业检测模型
医疗健康研究：分析不同职业群体在COVID-19期间的社交媒体表达

数据与资源

4563995.zipZIP
44.40 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	44.4 MiB
最后更新	2025年12月6日
创建于	2025年12月6日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。