-
ItAnt_古意大利语言文献目录_多格式发布数据
2026年2月9日 30 118 68
数据集概述 本数据集为古意大利语言文献目录,重点收录ItAnt项目分析的语言相关文献,支持TEI与TTL两种格式。TEI格式兼容EpiDoc标准,TTL格式基于IFLA开发的FRBRoo/LRMoo概念模型映射,与CIDOC CRM协调,提供半正式的书目信息表示。数据集来自意大利MUR资助的PRIN 2017项目,包含2个文件。 文件详解...
-
GRETIL_Based印度语言电子文本TEI数据集
2026年1月31日 30 79 29
数据集概述 本数据集为GRETIL(哥廷根印度语言电子文本注册库)的TEI格式数据,包含一百零一份印度语言电子文本文件,均为XML格式,无目录层级划分,未进行训练测试、数据标签或原始处理数据的拆分,可用于印度语言文献的数字化研究与分析。 文件详解 数据文件 文件名称:包含sa_bAdarAyaNa-...
-
DBNL_Based荷兰数字化图书OCR与校正文本数据集
2026年1月30日 30 196 70
数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
-
IN00601_BHAMODRA_MOHOTA_PLATE_XML数据
2026年1月26日 30 179 7
数据集概述 本数据集包含一份编号为IN00601的BHAMODRA MOHOTA PLATE相关XML文件,文件总数为1个,无目录层级,无训练/测试、数据/标签或原始/处理数据拆分。 文件详解 文件名称:IN00601_TEI.xml 文件格式:XML 字段映射介绍:包含BHAMODRA MOHOTA...
-
IN00619_TEI_DAHRASENA的PARDI铭文板XML数据
2026年1月22日 30 32 10
数据集概述 本数据集包含DAHRASENA的PARDI铭文板相关数据,以XML格式存储,共1个文件。数据未进行训练测试、数据标签或原始处理等划分,主要为铭文板相关的结构化信息,适用于历史铭文研究领域的资料查询与分析。 文件详解 文件名称:IN00619 TEI.xml 文件格式:.xml...
-
FGrHist_104_Digital_Edition_古典文献数字化数据集
2026年1月20日 30 185 69
数据集概述 本数据集为FGrHist 104的数字版本数据集,包含带注释的内容、静态网站转换文件及XSLT脚本等。数据集以压缩包形式提供,可用于访问和处理FGrHist 104的数字版本资源。 文件详解 文件名称:AristodemoDataDeposit.zip 文件格式:ZIP...
-
Alpenwort_Corpus_奥地利阿尔卑斯俱乐部年鉴数字化标注语料库数据1869_1998
2026年1月11日 30 86 46
数据集概述 本数据集为奥地利阿尔卑斯俱乐部1869-1998年年鉴(Zeitschrift des Deutschen und Österreichischen Alpenvereins,ZAV)的数字化标注语料库,覆盖阿尔卑斯山脉探索、全球山地研究、环境保护等主题,遵循CLARIN-DARIAH标准添加元数据,助力学术研究。 文件详解...
-
IN00605_PALITANA_PLATES_DHRUVASENA_I_210_TEI格式铭文数据
2026年1月5日 30 23 22
数据集概述 本数据集包含编号为IN00605的PALITANA PLATES DHRUVASENA I 210铭文的TEI格式XML文件,记录了该古铭文的相关信息,是研究古代铭文文物的重要数字化资料,数据集仅包含一个文件。 文件详解 文件名称:IN00605_TEI.xml 文件格式:XML...
-
IN00618_Based_YUVARAJA_SRYASRAYA_SILADITYA的NAUSARI碑铭数据
2025年12月29日 30 104 17
数据集概述 本数据集包含YUVARAJA SRYASRAYA SILADITYA的NAUSARI碑铭相关文献数据,以XML格式存储,共1个文件。数据记录了该历史碑铭的文献信息,为研究古代印度历史、铭文内容提供结构化资料。 文件详解 文件名称:IN00618 TEI.xml 文件格式:XML...
-
范妮_门德尔松致威廉_亨塞尔书信转录数据集
2025年12月14日 30 41 33
数据集概述 本数据集包含范妮·门德尔松致丈夫威廉·亨塞尔的122封书信转录内容,源自柏林国家图书馆的两文件夹藏品,共250页、2240行文本,以PAGE、ALTO及基础TEI格式存储,支持历史书信研究与手写文本识别模型训练。 文件详解 文件名称:1878144588.zip、1878121294.zip 文件格式:ZIP压缩包...
-
WeGA数据包裹_Carl_Maria_von_Weber全集数字版
2025年12月14日 30 25 20
数据集概述 本数据集是Carl-Maria-von-Weber全集(Carl-Maria-von-Weber-Gesamtausgabe)的数字版,包含TEI和MEI格式文档。数据从内部WeGA TEI格式转换而来,符合TEI_all和mei_all标准,保留全部信息,内部引用通过URI实现。 文件详解...
-
MeSpEn平行语料库_医疗健康文献数据集
2025年12月13日 30 117 8
数据集概述 该数据集为西班牙语与英语医疗健康领域的平行语料库资源,整合了西班牙、拉丁美洲等地的生物医学、临床文献及患者健康信息,支持医疗机器翻译、多语言术语提取及西班牙语医疗自然语言处理组件开发。 文件详解 该数据集包含多个文件,具体说明如下: - 说明文档: - MedlinePlus-health-...
-
RIDE网络校对工具评测补充文件集
2025年12月6日 30 169 83
数据集概述 本数据集为RIDE项目对Juxta Web Service、LERA和Variance Viewer三款网络校对工具的评测提供测试数据与结果文件,包含基于TEI格式的虚拟文本和《哈姆雷特》版本文本,以及三款工具生成的校对结果文件。 文件详解 该数据集包含12个文件,具体说明如下: - 测试数据集文件: -...



