数据集概述
本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。
文件详解
- 原始推文文件
- 文件名称:tweets_untagged.zip
- 文件格式:ZIP
- 字段映射介绍:包含未标注的原始推特文本数据,具体字段需解压后查看内部文件结构。
- 元数据文件
- 文件名称:meta_cplp_tweets_2022.tsv
- 文件格式:TSV
- 字段映射介绍:包含推特标识、来源国家(如gw代表几内亚比绍)、账号类型、平台、账号名、推特ID、发布时间(如2022-06-29T10:07:03.000Z)、年份等元数据字段。
- 标注文件
- 文件名称:cplp_tweets_2022_tagged.xml
- 文件格式:XML
- 字段映射介绍:包含标注后的推特数据,具体字段需解析XML结构查看,推测包含文本内容及语言学标注信息。
适用场景
- 葡萄牙语多中心变体研究: 分析不同葡语国家(如巴西、葡萄牙)推特文本中的语言差异与共性。
- 社交媒体语言学分析: 探究新闻机构推特文本的语言特征、文体风格及传播规律。
- 葡语国家文化传播研究: 基于新闻推特内容分析葡语国家间的文化交流与信息传播模式。
- 语料库语言学资源开发: 作为葡萄牙语语料库构建的基础数据,支持自然语言处理模型训练与验证。