-
CPLP_tuites_Based_葡萄牙语多中心推特语料库数据_2022
2026年1月21日 30 84 17
数据集概述 本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。 文件详解 原始推文文件 文件名称:tweets_untagged.zip...
-
Twitter仇恨言论检测与分析数据集
2025年12月8日 30 71 20
数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...



