-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
-
PeopleAndWriting_Based_古文字学分析方法摘要数据
数据集概述 本数据集是欧洲研究项目“The Secret Life of Writing: People, Script and Ideas in the Iberian Peninsula (c....
-
ILO_SR_Based_国际劳工局20世纪历史研究报告英文文本数据
数据集概述 本数据集收录国际劳工局20世纪历史研究报告的英文文本集合,基于ILO-SR系列原始文档创建。包含251个文件,主要为文本文件,可用于非商业研究,使用需注明国际劳工局为原始来源。 文件详解 文本文件(.txt) 文件名称:如ILO-SR_F5_engl.pdf.txt、ILO-SR_NS49_engl.pdf.txt等(共249个)...
-
APPENDIX_Based_18世纪仆人图书馆研究附录数据_2022
数据集概述 本数据集是论文《Sex Education, Songs, and Spiritual Guidance: An Eighteenth-Century Servants' Library》的附录文件,记录18世纪仆人图书馆相关的补充信息,为该历史研究提供辅助参考资料。数据集包含1个文档文件。 文件详解 文件名称:18C Servant...
-
IN00620_Traikutaka_grant_year_284数据
数据集概述 本数据集包含Traikutaka grant year 284相关的XML文件,共1个文件,无目录结构,无训练/测试、数据/标签、原始/处理数据的划分,主要文件类型为XML,占比100%。 文件详解 文件名称:IN00620 XML.xml 文件格式:XML 字段映射介绍:XML文件包含Traikutaka grant year...
-
音乐家历史档案数据_v0_0_1_基于约翰_弗雷德里克_格罗塞恩的资料
数据集概述 本数据集为音乐家John Frederick Grosjean(musiXplora-ID:g2489)的传记档案,包含其基本信息、职业领域、活动时间、关联来源及作品集等内容,是研究19世纪乐器制造领域音乐家的基础资料。 文件详解 文件名称:g2489_DE.json 文件格式:JSON...
-
IN00619_TEI_DAHRASENA的PARDI铭文板XML数据
数据集概述 本数据集包含DAHRASENA的PARDI铭文板相关数据,以XML格式存储,共1个文件。数据未进行训练测试、数据标签或原始处理等划分,主要为铭文板相关的结构化信息,适用于历史铭文研究领域的资料查询与分析。 文件详解 文件名称:IN00619 TEI.xml 文件格式:.xml...
-
IN02017_Epidoc_Siddham档案待整合梵语铭文XML数据
数据集概述 本数据集为IN02017 Kisipidi铭文的梵语XML文件,是待整合至"Siddham"档案的Epidoc格式草稿版本,不含元数据。数据以XML格式记录铭文文本内容,为研究该梵语铭文提供结构化文本资源,仅包含一个文件。 文件详解 文件名称:IN02017.xml 文件格式:XML...
-
基于范妮_莱瓦尔德与阿道夫_施塔尔通信的数字索引数据_1846_1852
数据集概述 本数据集为1846至1852年间Fanny Lewald(-Stahr)与Adolf Stahr通信的数字索引,采用correspSearch网络服务的通信元数据交换格式(CMIF)构建,包含3个XML文件,对应通信的不同年份卷册,是研究两人历史通信的结构化数字资源。 文件详解 文件名称:lewald-...
-
IN01015_Sanskrit_Dhamatari特许状文本XML数据
数据集概述 本数据集为Sudevaraja的Dhamatari特许状的梵语文本数字化文件,以XML格式存储,未包含元数据。数据集仅含一个文件,无目录层级结构,无训练/测试、数据/标签或原始/处理数据的划分,文件类型单一为XML。 文件详解 文件名称:IN01015.xml 文件格式:XML...
-
BDJ_Supplementary_Matela保护区历史文献来源列表数据
数据集概述 本数据集为Matela保护区生物多样性调查的补充材料,包含提及Matela的历史文献来源列表。数据源自2024年发表的生物多样性多类群调查研究,支持对Matela保护区相关历史文献的检索与梳理,仅包含一个文件。 文件详解 文件名称:oo_1005711.docx 文件格式:DOCX...
-
ENHG_Annotation_Based_中世纪采矿文献TEI标注数据集
数据集概述 本数据集包含历史采矿文献《Verleihbuch der Rattenberger Bergrichter》(TLA Hs....
-
MED_TEI_XML_Based_卢卡公国历史原始特许状与副本数字化数据
数据集概述 本数据集为《Memorie e documenti per servire all'istoria del Ducato di Lucca 5:2》的TEI XML数字化版本,收录了公元776至869年间托斯卡纳地区的原始特许状及同期副本,经Timo...
-
Swamp_Bay_Supplementary_晚全新世沉积记录研究补充数据
数据集概述 本数据集为支持论文《Tsunami or storm deposit? A late Holocene sedimentary record from Swamp Bay, Rangitoto ki te Tonga/D’Urville Island, Aotearoa - New...
-
伊尔滕_卡利奥佩_基于托马斯_埃伯哈德_冯_伊尔滕的私人与国家文件集结构数据
数据集概述 本数据集以Gephi项目文件和JSON格式存储图数据,呈现汉诺威战争军需总监兼枢密院成员Thomas Eberhard von...
-
IN01046_梵语文本数据_基于XML格式的拉维瓦尔曼_古德纳普尔授予文本
数据集概述 本数据集包含一份编号为IN01046的梵语XML文件,对应Ravivarman的Gudnapur Grant铭文文本,未包含元数据。数据集仅含单个文件,无目录层级、训练测试或原始/处理数据划分,文件类型单一为XML格式。 文件详解 文件名称:IN01046.xml 文件格式:XML 字段映射介绍:包含Ravivarman的Gudnapur...
-
IN01034_VisnuvarmanBirurGrant梵语铭文XML数据
数据集概述 本数据集包含IN01034号铭文——Visnuvarman王第3年Birur敕令(存疑)的梵语XML文件,无元数据。数据集仅含1个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试集、数据/标签或原始/处理数据。 文件详解 文件名称:IN01034.xml 文件格式:XML...
-
Entangled_Histories_佛兰德斯议会法令集转录数据集_1787
数据集概述 本数据集为1787年出版的《佛兰德斯议会法令、公告、特许状等汇编及国务委员会相关判决》第6卷的转录版本。内容包括佛兰德斯议会登记的官方文件及特定管辖范围内的国务委员会判决,是研究18世纪佛兰德斯地区法律与行政历史的重要原始文献。 文件详解 文件名称:OXFORD555082878.zip 文件格式:ZIP...
-
IN01036_Sanskrit_XML_Bannahalli敕令梵语文献数据
数据集概述 本数据集为IN01036编号的Bannahalli敕令数字化文件,内容是Krsnavarman II统治第7年的梵语铭文,以XML格式存储,不含元数据。数据集仅包含一个文件,可用于历史铭文研究、梵语文献数字化分析等场景。 文件详解 文件名称:IN01036.xml 文件格式:XML 字段映射介绍:存储Krsnavarman II...
-
NotMed_Based_意大利南部及岛屿13_15世纪公证人登记数据_数据集
数据集概述 本数据集是NotMed项目对意大利南部及岛屿13-15世纪留存登记的公证人进行的登记数据,记录了公证人的姓名、来源、职位类型、登记册数量、登记起止年份等信息,旨在统计该地区中世纪公证人登记册数量并为后续研究奠定基础。 文件详解 Schedatura_notai_Meridione.csv 文件格式:CSV...



