找到14个数据集

标签: TEI XML

过滤结果
  • GreetingsFrom_Based历史明信片地址转录数据集2023

    2026年1月22日 30 23 8

    数据集概述 本数据集包含500张具有历史意义的明信片背面的地址转录数据,覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth(GT)和手写文本识别(HTR)两种转录版本,用于历史明信片地址信息的提取研究。 文件详解 GreetingsFrom_GT.zip 文件格式:ZIP...
    packageimg
  • Softcite_Based_科学文献软件提及标注数据集_Version2

    2026年1月21日 30 135 14

    数据集概述 本数据集为Softcite Dataset Version 2,包含4971篇英文开放获取科学文献的软件提及标注,涵盖生命科学与经济学领域,共约4600万词。标注经多阶段人工标注与冲突协调,新增软件类型细分(环境、组件、隐式)及编程语言标注,是科学文献软件提及分析的金标准语料库。 文件详解 压缩包文件...
    packageimg
  • MED_TEI_XML_Based_卢卡公国历史原始特许状与副本数字化数据

    2026年1月21日 30 161 19

    数据集概述 本数据集为《Memorie e documenti per servire all'istoria del Ducato di Lucca 5:2》的TEI XML数字化版本,收录了公元776至869年间托斯卡纳地区的原始特许状及同期副本,经Timo...
    packageimg
  • MRP_Based_奥匈帝国联合部长会议_事件型目录数据_1867_1918

    2026年1月20日 30 113 96

    数据集概述 本数据集为奥匈帝国联合部长会议1867-1918年会议记录的事件型目录,采用TEI XML格式建模。基于六卷会议记录的目录编制,包含会议场次及议程项的嵌套事件结构,每条记录附唯一标识与对应PDF链接,用于生成会议事务的日历视图。 文件详解 文件名称:MRP-2-0-listEvent.xml 文件格式:XML 字段映射介绍:...
    packageimg
  • FAIRCORE4EOSC_SSH_Case_Study_DTR数据类型定义集

    2026年1月20日 30 174 172

    数据集概述 本数据集是为FAIRCORE4EOSC项目SSH案例研究创建的数据类型定义集合,包含在数据类型注册中心(DTR)中使用的五个JSON格式文件,涵盖扩展MIME类型定义、TEI XML类型实例及分类节点等内容,用于标准化数据类型管理。 文件详解 0acb62608006dbbbcf88.json 文件格式:JSON...
    packageimg
  • CDL_Based_托斯卡纳伦巴第原始外交宪章及同期副本TEI_XML数据_公元714_774年

    2026年1月9日 30 61 35

    数据集概述 本数据集为《Codice diplomatico longobardo 1-2》的TEI XML版本,收录公元714至774年间托斯卡纳地区的原始伦巴第外交宪章及同期副本。数据由Luigi...
    packageimg
  • 霍夫日记_萨克森王位继承人约翰_乔治二世的宫廷记录_TEI_XML_转录数据_1653_1656年

    2026年1月7日 30 17 7

    数据集概述 本数据集为萨克森选帝侯Johann Georg II.(1653-1656年任王储时期)宫廷日记手稿的TEI:XML转录版本,记录其父Johann Georg I.最后三年统治期间的权力交接过程。转录经Transkribus行分割、scriptorium模型训练、LLM校正及人工核验,遵循DTABf-M规范,含日期、人物、地点等结构化标记。...
    packageimg
  • Codice_diplomatico_toscano_托斯卡纳775_813年原始宪章TEI_XML数据

    2026年1月1日 30 49 35

    数据集概述 本数据集为《Codice diplomatico toscano 2:1》的TEI XML版本,收录公元775至813年间托斯卡纳地区的原始宪章及同期副本。数据保留了与形态句法分析相关的缩写扩展、脱漏标注等外交信息,添加ChLA编号以便与摹本对比,且经Timo Korkiakangas修正。数据集含一个XML文件,无目录结构。 文件详解...
    packageimg
  • TEI_XML_Based_萨克森选帝侯约翰_格奥尔格二世1665年宫廷日记完整转录数据_Release2

    2025年12月30日 30 155 92

    数据集概述 本数据集包含1665年萨克森选帝侯约翰·格奥尔格二世宫廷日记(SLUB Mscr.Dresd.K.80)的完整手写转录版本,遵循DTABF标准提供TEI:XML格式文件及PDF阅读版。XML文件通过元素拆分日记条目,标注日期、人物、地点及格式元素,PDF由TEIGarage简单转换生成,未优化排版。 文件详解 文件名称:SLUB Dresd...
    packageimg
  • 悉昙碑铭档案_EpiDoc格式文本

    2025年12月12日 30 130 38

    数据集概述 本数据集是悉昙语料库中碑铭文本的EpiDoc(TEI XML)版本归档,包含不同时间点的工作进展版本与最终发布版本,记录了碑铭文本的数字化编辑过程,为碑铭研究提供结构化的文本数据支持。 文件详解 该数据集以版本为单位归档EpiDoc格式的碑铭文本文件,各版本说明如下: -...
    packageimg
  • 欧洲文学文本语料库英文小说数据集2021

    2025年12月14日 30 73 34

    数据集概述 该数据集是欧洲文学文本语料库(ELTeC)的英文小说部分,2021年4月发布,包含100部英文小说的TEI XML源文件,由COST Action项目构建,为欧洲文学远程阅读研究提供支持。 文件详解 文件名称: README.md 文件格式: Markdown (.md) 内容:...
    packageimg
  • Jarāʾid阿拉伯期刊年表数据集1800_1929

    2025年12月7日 30 126 71

    数据集概述 该数据集是Jarāʾid项目首次发布的文献数据,收录了1800至1929年全球范围内以阿拉伯语(含阿拉伯语加其他语言)出版的所有期刊的文献信息,是项目网站的基础数据支撑。 文件详解 文件名称:ProjectJaraid/jaraid_source-v1.0.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • ELTE_Poetry_Corpus_Based_匈牙利经典诗歌多维度特征标注完整数据

    2025年12月6日 30 112 93

    数据集概述 该数据集为ELTE诗歌语料库,包含匈牙利53位经典诗人的14358首完整诗歌,涵盖词汇语法特征、押韵模式、节奏、头韵等诗歌声音特征,以TEI及非TEI XML格式存储,为诗歌研究提供结构化标注数据。 文件详解 文件名称:poetry-corpus-1.0.zip 文件格式:ZIP压缩包 内部目录及内容: level1:人工校验的TEI...
    packageimg
  • 数据17世纪苏黎世Stillstand会议记录TEI_XML数据集

    2025年12月5日 30 122 54

    数据集概述 本数据集包含17世纪瑞士苏黎世地区Stillstand会议记录的TEI-XML格式数字化文本,记录了当地宗教社区管理机构Stillstand的日常事务、社会治理及民众生活等内容,由原始手写记录转录、转换而来,具有重要历史文献价值。 文件详解 核心数据文件:...
    packageimg