-
OpenITI千纪百万词作者数据集2023_1_8
2025年12月20日 30 94 37
数据集概述 该数据集基于OpenITI语料库2023.1.8版本及对应文本复用数据,聚焦公元1000 AH及之前语料库中字数超百万的“百万词作者”,包含其作品元数据、字数统计等信息,用于分析少数作者对语料库的贡献占比。 文件详解...
-
欧洲文学文本集_法国小说语料库2021
2025年12月20日 30 170 38
数据集概述 本数据集是欧洲文学文本集(ELTeC)的法国小说语料库,由COST Action“欧洲文学史的远读”项目制作,版本为v1.0.1。包含法国小说文本及元数据,所有文本均属于公有领域,为文学研究提供标准化语料支持。 文件详解 该数据集包含三个文件,具体说明如下: - 文件名称: ELTeC-fra_metadata.tsv - 文件格式:...



