Hindawi_Based_19_20世纪阿拉伯文学计量风格测试语料库_数据集

数据集概述

本数据集包含19世纪至20世纪初的三类阿拉伯文学文本语料库,用于计量风格测试。涵盖Jurji Zaydan的22部编年历史小说、8位作者的65部作品、28位作者的300部作品。文本经标准化处理,适配R stylo工具,原始来源为Hindawi平台,压缩包内为UTF8编码的清洁文本文件。

文件详解

  • 主文件
  • 文件名称:Hindawi_Corpus_Rstylo-v.1.0.0.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内含三类子语料库的清洁文本文件,命名遵循OpenITI项目规范(适配R stylo使用下划线连接):Jurji Zaydan语料库为“YEAR_TITLE”格式,其他语料库为“AUTHOR_TITLE”格式;文本已完成阿拉伯语正字法标准化(移除短元音、简化alif写法、转换alif maqṣūraŧ为yāʾs)。

数据来源

https://www.hindawi.org/

适用场景

  • 作家风格时序分析:利用Jurji Zaydan编年语料库测试单个作家写作风格的时间变化趋势。
  • 作者归属研究:通过多作者语料库(corpus065、corpus300)开展文学作品的作者身份识别与归属验证。
  • 阿拉伯文学风格特征提取:分析19-20世纪阿拉伯文学的语言风格共性与差异。
  • 计量文体学工具适配研究:基于标准化语料库测试R stylo等工具在阿拉伯语文本分析中的应用效果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 55.74 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。