殖民地历史葡萄牙语语料库1500-1936

殖民地历史葡萄牙语语料库1500-1936 数据来源:互联网公开数据 标签:历史葡萄牙语,语料库,词性标注,文学研究,语言演变,欧洲葡萄牙语,巴西葡萄牙语,时间序列

数据概述: 本数据集包含1500年至1936年间在葡萄牙和巴西书写的葡萄牙语历史文本,涵盖了近440年的时间跨度。数据集包括5个子语料库,每个子语料库代表一个世纪,包含100个完整的手稿文本,总计5,157,982个词元。这些文本在词性标注方面进行了处理,使用了TreeTagger工具,标注了包括经典词性标签(如动词V、限定词DET、名词N等)和复合词性标签(如介词加限定词PREP+DET、动词加代词V+P等)。

数据用途概述: 该数据集适用于语言学研究、文学分析、词性标注模型训练等多种场景。研究人员可以利用此数据集研究葡萄牙语在几个世纪内的演变过程,包括词汇变化、句法结构变化以及语法一致性的表达方式等。此外,该数据集也适用于开发和训练用于识别文本年代的分类器,并可用于扩展至其他语料库的研究,如巴西葡萄牙语文学语料库。

举例: 本数据集涵盖了1500年至1936年间葡萄牙和巴西的多种文本形式,包括不同世纪的文学作品、文件和通信等。例如,16世纪的文本共有13篇,总计399,245个词元;20世纪的文本共有17篇,总计1,132,696个词元。每篇文本都经过词性标注,标注结果包括形容词(如“bonita”)、副词(如“muita”)、限定词(如“os”)、数词(如“primeiro”)、名词(如“mesa”)、代词(如“eles”)、介词(如“de”)、动词(如“fazer”)、感叹词(如“Oh!”)等。这些标注结果可以帮助研究人员深入分析葡萄牙语在不同历史时期的语言特征和变化趋势。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 35.11 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。