数据集概述
本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。
文件详解
- 文件组:CONTRAST-IT西班牙语新闻文章集
- 文件数量:10个
- 文件格式:DOCX
- 具体文件示例:Corpus_El Pais_Economia.docx、Corpus_El Mundo_Economia.docx、Corpus_El Pais_Politica.docx、Corpus_El Pais_Tecnologia.docx、Corpus_El Pais_España.docx、Corpus_El Pais_Deportes.docx、Corpus_El Mundo_Ciencia_Tecnologia.docx、Corpus_El Mundo_España.docx等
- 内容说明:文件按报纸名称和主题分类,涵盖经济、政治、科技、西班牙国内、体育等新闻领域,均为完整的原创电子新闻文章
数据来源
CONTRAST-IT语料库项目,瑞士国家科学基金会项目(ICOCP、ISAaC)
适用场景
- 多语言对比语言学研究:用于意大利语与西班牙语等语言的句法、词汇对比分析
- 西班牙语语言特征研究:分析当代西班牙报纸语言的词汇使用、句法结构和文体特点
- 新闻语料库构建参考:为其他语言或主题的新闻语料库构建提供数据结构和来源选择参考
- 计算语言学应用:作为西班牙语文本处理(如分词、词性标注)的训练或测试语料
- 媒体语言研究:探究西班牙主流报纸在不同领域新闻中的语言风格差异