数据集概述
本数据集是DIPROMATS 2024共享任务2的小样本训练数据,用于叙事识别任务。叙事是指有因果联系的事件序列,在国际关系领域,国际行为体通过战略叙事构建国际政治的过去、现在和未来的共同意义。数据集包含英文和西班牙文两种语言的训练数据,共2个文件。
文件详解
- 文件名称:dipromats24_t2_train_en_ids.json
- 文件格式:JSON
- 字段映射介绍:英文小样本训练数据,包含与叙事相关的推文样本及对应叙事标识信息。
- 文件名称:dipromats24_t2_train_es_ids.json
- 文件格式:JSON
- 字段映射介绍:西班牙文小样本训练数据,包含与叙事相关的推文样本及对应叙事标识信息。
数据来源
Peñas, A., Fraile-Hernández, J. M., Moral, P., Rodrigo, Á., Deriu, J., Sharma, R., Centeno, R., Rodríguez-García, R., Giedemann, P., & Reyes-Montesinos, J. (2024). DIPROMATS 2024 - Shared Task 2: testing data for narrative identification (1.0.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.12663310
适用场景
- 自然语言处理模型训练: 用于训练小样本学习模型,完成叙事识别的多类别多标签分类任务。
- 国际关系文本分析: 分析推文中国际行为体的战略叙事内容及传播特点。
- 跨语言叙事研究: 对比英文和西班牙文推文中叙事的表达差异和识别难度。
- 多标签分类算法评估: 测试不同算法在小样本条件下对叙事识别任务的性能表现。