CONTRAST_IT_Corpus_French_News_Articles_2011_2012

数据集概述

本数据集是CONTRAST-IT多语言语料库的法语部分,包含2011-2012年来自法国《世界报》和《费加罗报》的520篇真实新闻文章,总计约30万字。文章覆盖经济、体育、国际新闻等多个主题,是构建对比语言学研究语料库的基础数据。

文件详解

  • 文件概况:共11个文档文件,包含.doc和.docx两种格式,其中.docx格式8个(占比约72.73%),.doc格式3个(占比约27.27%)
  • 示例文件:
  • 文件名:Corpus_Le Monde_Economie.doc、Corpus_Le Figaro_Economie_1.docx等
  • 内容主题:涵盖经济、体育、国际新闻、政治、文化等新闻类别
  • 来源报纸:法国《世界报》(lemonde.fr)和《费加罗报》(lefigaro.fr)

数据来源

CONTRAST-IT项目(瑞士国家科学基金会项目支持)

适用场景

  • 对比语言学研究:用于意大利语与法语等多语言的句法、词汇对比分析
  • 新闻语料库构建:支持构建当代法语新闻语言的代表性语料库
  • 自然语言处理训练:作为法语文本分类、主题建模等NLP任务的训练数据
  • 新闻语言特征分析:研究2011-2012年法国主流报纸的语言风格和主题分布
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.65 MiB
最后更新 2026年1月7日
创建于 2026年1月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。