CPLP_tuites_Based_葡萄牙语多中心推特语料库数据_2022

数据集概述

本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。

文件详解

  • 原始推文文件
  • 文件名称:tweets_untagged.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含未标注的原始推特文本数据,具体字段需解压后查看内部文件结构。
  • 元数据文件
  • 文件名称:meta_cplp_tweets_2022.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含推特标识、来源国家(如gw代表几内亚比绍)、账号类型、平台、账号名、推特ID、发布时间(如2022-06-29T10:07:03.000Z)、年份等元数据字段。
  • 标注文件
  • 文件名称:cplp_tweets_2022_tagged.xml
  • 文件格式:XML
  • 字段映射介绍:包含标注后的推特数据,具体字段需解析XML结构查看,推测包含文本内容及语言学标注信息。

适用场景

  • 葡萄牙语多中心变体研究: 分析不同葡语国家(如巴西、葡萄牙)推特文本中的语言差异与共性。
  • 社交媒体语言学分析: 探究新闻机构推特文本的语言特征、文体风格及传播规律。
  • 葡语国家文化传播研究: 基于新闻推特内容分析葡语国家间的文化交流与信息传播模式。
  • 语料库语言学资源开发: 作为葡萄牙语语料库构建的基础数据,支持自然语言处理模型训练与验证。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 88.37 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。