-
欧洲文学文本集合2021年4月版
2025年12月18日 30 210 131
数据集概述 本数据集为2021年4月发布的欧洲文学文本集合(ELTeC)1.1.0版本,包含十四种欧洲语言的小说集合,其中八种语言的小说数量达一百部,总计超过一千二百部小说,为欧洲文学远程阅读研究提供多语言文本资源支持。 文件详解...
-
哥廷根印度语言电子文本登记印度法论数据集
2025年12月15日 30 19 5
数据集概述 本数据集是哥廷根印度语言电子文本登记(GRETIL)中关于印度法论(SMṚTI)的电子文本集合,包含46个HTML格式文件,未进行训练测试、数据标签或原始处理数据的划分,文件类型单一为.htm格式。 文件详解 文件类型:以.htm格式为主,共46个文件,占比100%...
-
历史PCM文本语料库附录_18_21世纪
2025年12月14日 30 86 39
数据集概述 本数据集为研究用18至21世纪历史PCM文本语料库的附录文件,包含相关文本内容,以单一PDF格式存储,未划分训练测试或数据标签集。 文件详解 文件名称: Appendix_corpus_of_historic_(18th-21st_century)_PCM_texts.pdf 文件格式: PDF (.pdf) 文件内容:...
-
Korpuslinguistik_Based_Foodblog_Korpus德语美食博客标注完整数据
2025年12月12日 30 25 11
数据集概述 该数据集是《Korpuslinguistik(narr Starter)》教材的配套材料,包含一百五十篇德语美食博客文章及相关元数据、标注文件。数据格式多样,为德语美食博客文本的语言学分析提供了结构化与非结构化相结合的资源。 文件详解 该数据集包含五个文件,具体说明如下: - 文本集合文件: - Foodblog-...
-
土佐日记现代日语及英语翻译数据集
2025年12月12日 30 53 26
数据集概述 本数据集是《土佐日记》的现代日语及英语翻译文本集合,包含原文及对应翻译内容,以JSON格式存储,涵盖标题、作者、段落文本、假名注音、直译与意译等多维度信息,为古典文学翻译与研究提供结构化资源。 文件详解 该数据集包含一个压缩文件,具体说明如下: - 文件名称: yamagen/tosa-translation-v1.0.0.zip -...
-
哥廷根印度语言电子文本注册_ŚRAUTA数据集
2025年12月11日 30 81 37
数据集概述 本数据集是GRETIL平台收录的印度语言电子文本注册中关于ŚRAUTA主题的文本集合,包含5个HTML格式文件,未区分训练/测试、数据/标签或原始/处理数据,文件类型单一。 文件详解...
-
哥廷根印度语言电子文本注册中心_奥义书数据集
2025年12月11日 30 59 20
数据集概述 该数据集是哥廷根印度语言电子文本注册中心(GRETIL)收录的奥义书(UPANIṢAD)相关电子文本集合,包含三十五个HTML格式文件,无目录层级结构,未划分训练测试、数据标签或原始处理数据。 文件详解 文件类型:均为HTML格式(.htm),共三十五个文件...
-
哥廷根印度语言电子文本注册库_罗摩衍那数据集
2025年12月10日 0 27 2
数据集概述 本数据集是哥廷根印度语言电子文本注册库(GRETIL)中关于《罗摩衍那》(Rāmāyaṇa)的电子文本集合,包含多个章节或版本的文本文件,为印度古典文学研究提供基础资料。 文件详解 该数据集由13个HTML格式文件组成,具体如下: -...



