数据集概述
本数据集为Touché/SemEval 2023 Task 4(ValueEval)任务专用,用于识别论证背后的人类价值观。基于Webis-ArgValues-22数据集构建,包含训练、验证、测试阶段的论证文本与对应标签数据,共27个文件,支持自然语言处理领域的价值观识别研究。
文件详解
- 数据文件(.tsv格式,共25个)
- 训练数据:arguments-training.tsv(论证文本)、labels-training.tsv(标签)、level1-labels-training.tsv(一级标签)
- 验证数据:arguments-validation-zhihu.tsv(知乎验证论证)、labels-validation-zhihu.tsv(知乎验证标签)、level1-labels-validation.tsv(一级验证标签)
- 测试数据:labels-test.tsv(测试标签)
- 元数据:meta-arguments-e.tsv(论证元数据)
- 配置文件(.json格式,1个)
- value-categories.json:价值观类别定义文件
- 说明文件(.md格式,1个)
- README.md:数据集说明文档,包含DOI、Huggingface地址等信息
数据来源
Webis-ArgValues-22数据集(论文Identifying the Human Values behind Arguments,ACL'22)
适用场景
- 自然语言处理任务:支持论证文本中人类价值观识别模型的训练与验证
- 语义评估研究:用于Touché/SemEval 2023 Task 4任务的模型性能测试
- 价值观分类研究:基于level1-labels文件分析不同层级的价值观分类体系
- 跨语言论证分析:利用知乎验证数据开展中文论证的价值观识别研究