数据集概述
本数据集是AMOR项目产出的首个可发布版本西班牙语在线评论道德基础标注语料库,包含从西班牙语Reddit社区提取并经人工筛选的评论,由训练后的标注者通过Qualtrics平台完成标注。数据涵盖标注文本及标注者档案两部分,适用于计算语言学和社会科学领域关于西班牙语在线话语中道德语言与价值表达的研究。
文件详解
- 语料库文件(Corpus Files)
- 文件名称:AMOR-Corpus_V1-global.jsonl、AMOR-Corpus_V1-global.json、AMOR-Corpus_V1-high.json、AMOR-Corpus_V1-medium.json、AMOR-Corpus_V1-high.jsonl、AMOR-Corpus_V1-medium.jsonl
- 文件格式:JSON、JSONL
- 字段映射介绍:包含标注文本及元数据(如子版块、作者、评论线程信息),标注内容涵盖道德基础(如关怀、忠诚、权威)、极性(美德或恶习)及标注者置信度(低、中、高);提供三种版本:全置信度、仅高置信度、中+高置信度
- 标注者档案文件(Annotator Profiles)
- 文件名称:AMOR-Corpus_V1-annotators.json
- 文件格式:JSON
- 字段映射介绍:包含标注者的匿名ID、人口统计特征(性别、年龄、政治倾向、收入、宗教信仰)及西班牙语版MFQ30道德基础问卷得分(如H_EMOTIONALLY、F_TREATED等维度)
数据来源
AMOR项目
适用场景
- 计算语言学研究: 用于西班牙语道德语言的文本分类、情感分析及语义理解模型训练
- 社会科学研究: 分析西班牙语在线话语中的道德价值表达、群体道德倾向差异
- 跨文化道德比较: 对比不同地理背景西班牙语用户的道德基础分布与语言特征
- 标注者偏差分析: 结合标注者档案研究人口统计特征对道德标注结果的影响
- 在线社区道德话语监测: 探索西班牙语Reddit社区中道德相关话题的传播与演变规律