找到63个数据集

标签: 数字化处理

过滤结果
  • ICPR_2020文本块分割竞赛新闻眼数据集

    2026年2月9日 30 146 112

    数据集概述 本数据集为ICPR 2020文本块分割竞赛专用数据,源自NewsEye项目,包含奥地利国家图书馆提供的19至20世纪德语历史报纸页面(部分二值化),涉及4种报纸标题。数据分为简单赛道(仅连续文本)和复杂赛道(含表格、图像等),各赛道含训练数据40页、测试数据10页,总计6个压缩文件。 文件详解 训练数据文件...
    packageimg
  • eBL_Based_楔形文字符号OCR识别结果数据

    2026年1月31日 30 127 32

    数据集概述 本数据集是电子巴比伦图书馆团队通过OCR模型对eBL平台约七万五千张楔形文字泥板照片进行识别的结果。尽管设置了高阈值以提升准确率,仍提取出约一百二十二万四千一百零九个符号。数据集包含一个JSON文件,无目录结构,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:eBL_OCRed_Signs.json 文件格式:JSON...
    packageimg
  • IN02082_Draft_Epidoc_梵语铭文XML数据

    2026年1月29日 30 192 111

    数据集概述 本数据集为IN02082 Balambu Indramati铭文的梵语XML文件,是尚未纳入Siddham档案的Epidoc格式草稿版本。数据不含元数据,聚焦于铭文的梵语文本内容,为铭文研究提供结构化的数字化文本资源。 文件详解 文件名称:IN02082.xml 文件格式:XML...
    packageimg
  • Bionomia_UWIZM双壳类标本采集者与鉴定者关联数据

    2026年1月29日 30 29 1

    数据集概述 本数据集为UWIZM双壳类标本的采集者与鉴定者关联数据,由Bionomia志愿者基于GBIF聚合的UWIZM双壳类标本数据标注生成,包含标本采集、鉴定相关的归属声明及问题记录,以Frictionless Data数据包格式组织,共9个文件。 文件详解 压缩文件(共8个)...
    packageimg
  • Normalized_4000部中国地方志标准化章节标题数据

    2026年1月29日 30 55 2

    数据集概述 本数据集包含四千部中国地方志的标准化章节标题相关数据,涵盖地方志的元数据、矩阵数据及投影配置信息,可用于地方志文献的结构化分析与研究,总计包含三个文件。 文件详解 all_books_metadata.csv 文件格式:CSV 字段映射介绍:包含Book ID(地方志ID)、Book Name(地方志名称)、Admin...
    packageimg
  • Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

    2026年1月26日 30 93 28

    数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
    packageimg
  • Cursive_Character_Based_王羲之草诀歌书法字符数据集

    2026年1月21日 30 48 6

    数据集概述 本数据集基于王羲之《草诀歌》的图像创建,包含九万九千二百九十六张图像样本,分为三百三十一个类别。数据按训练集、验证集、测试集划分,可用于书法字符识别、模式分析等相关研究。 文件详解 文件总数:3个 文件格式:.zip 文件列表: Training_set.zip:训练集压缩包,包含五万九千五百八十个数据样本...
    packageimg
  • MorphGNT_SBLGNT_Based圣经希腊文形态学标注数据6_12

    2026年1月21日 30 127 19

    数据集概述 本数据集为MorphGNT项目发布的SBL希腊文新约(SBLGNT)版本6.12形态学标注数据,主要包含对附着词规范字段的修正,以及调整腓立比书2:1中最后一个“τις”的性属标注,与其他分析保持一致。数据以压缩包形式提供,用于圣经文本的形态学研究与分析。 文件详解 文件名称:morphgnt/sblgnt-6.12.zip...
    packageimg
  • IN02025_Based_Kisipidi石碑梵语Epidoc草稿XML数据

    2026年1月20日 30 120 31

    数据集概述 本数据集为IN02025号482年Kisipidi石碑的梵语文本数据,采用Epidoc格式的XML文件存储(无元数据),是拟纳入“Siddham”档案的草稿版本。数据集包含1个XML文件,无目录层级,未进行训练/测试、数据/标签或原始/处理的拆分。 文件详解 文件名称:IN02025.xml 文件格式:XML...
    packageimg
  • bszady_Source_波兹南教区1561年贡金登记册研究数据_2025版

    2026年1月19日 30 146 128

    数据集概述 本数据集为1561年波兹南教区贡金登记册的研究相关数据,包含资料来源与编辑问题的研究内容,以及对应的编辑版本和研究数据,以压缩包形式提供,可用于16世纪波兰教区贡金制度的历史研究。 文件详解 文件名称:bszady/regestra_1561-v5_2025.zip 文件格式:ZIP...
    packageimg
  • IN02055_Sanskrit_EpiDoc格式Thimi铭文残片XML草稿

    2026年1月19日 30 95 45

    数据集概述 本数据集为IN02055 Thimi铭文残片的梵语XML文件,采用EpiDoc格式的草稿版本,不含元数据,计划纳入“Siddham”档案。数据集仅包含1个XML文件,无目录层级,未进行训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:IN02055.xml 文件格式:XML...
    packageimg
  • Aquarius_remigis_Based_水面扰动环境水黾三龄期逃逸跳跃行为数据

    2026年1月18日 30 120 73

    数据集概述 本数据集记录了水黾(Aquarius remigis)成体、幼体及一龄幼虫在光滑、波浪主导、气泡主导三种水面环境下的逃逸跳跃行为,分析了水面扰动对其运动性能的影响,包括起跳角度、峰值平移速度、高度及能量消耗等指标的变化规律。数据集包含5个文件,覆盖原始观测数据与视频资料。 文件详解 行为观测数据集:...
    packageimg
  • PTA_Patristische_Textarchiv教父文献档案TEI模式数据

    2026年1月15日 30 161 107

    数据集概述 本数据集包含教父文献档案(Patristische Textarchiv,PTA)使用的TEI模式及其相关文档,用于规范教父文献的数字化编码与存储。数据集以压缩包形式提供,包含一套标准化的文本编码框架,适用于教父文献的结构化处理与长期保存。 文件详解 文件名称:PatristicTextArchive/Schema-v.4.0.zip...
    packageimg
  • Bionomia_Linked_LACM脊椎动物标本采集者鉴定者关联数据_package

    2026年1月13日 30 196 59

    数据集概述 本数据集为LACM脊椎动物标本馆的标本数据与采集者、鉴定者的关联数据,由志愿者通过Bionomia平台基于GBIF聚合的标本数据生成,采用Frictionless Data数据包格式,包含9个文件,用于记录标本相关的人员关联信息及问题数据。 文件详解 归档文件(.zip格式,共8个) citations.csv.zip:引用信息归档文件...
    packageimg
  • Plotting_Poetry_Based_芬兰语鲁诺诗歌韵律变异计算研究数据集2021

    2026年1月13日 30 41 17

    数据集概述 本数据集为论文配套的代码与数据压缩包,用于研究芬兰语鲁诺诗歌传统中的韵律变异,探索计算方法在该领域应用的挑战与可能性。数据集包含相关研究所需的代码与数据资源,支持对鲁诺诗歌韵律特征的量化分析。 文件详解 压缩包文件 文件名称:sarv-et-al-2021-plotting-poetry.zip 文件格式:ZIP...
    packageimg
  • Objaverse_1_0_Based_Sosenko家族基金会风景图案香水瓶数字藏品数据

    2026年1月13日 30 69 31

    数据集概述 本数据集为Sosenko家族基金会收藏的编号FZRS/65的风景图案香水瓶数字资源,包含5张JPEG格式缩略图和1个GLB格式三维模型文件,由RDW MIC在Virtual Małopolska项目中完成数字化处理,可用于香水瓶藏品的数字展示与研究。 文件详解 缩略图文件(Thumbnails)...
    packageimg
  • Hermarchus_encoding_critical_edition_古典文献校勘数据

    2026年1月12日 30 19 5

    数据集概述 本数据集为《Porph. De Abst. I, 7-12》中Hermarchus谱系校勘版的XML-TEI编码数据,通过标准化编码格式呈现古典文献中的谱系内容,为古典文献研究提供结构化的文本资源。数据集仅包含一个文件,无目录层级划分。 文件详解 文件名称:Giovacchini_Hermarque_editioncritique.xml...
    packageimg
  • KBNL03000178388_基于荷兰格尔德兰地区的法律文献转录数据集_纠缠的历史项目成果

    2026年1月12日 30 171 137

    数据集概述 本数据集为1783年出版的荷兰法律文献《Gelrische landt- en stadt-rechten in het Overquartier van Ruremonde》的转录成果,源自荷兰国家图书馆(KB)馆藏副本,是“Entangled...
    packageimg
  • v7172_11_partial_Sacrum_Based_骶骨NSY_NSZ解剖影像完整数据

    2025年12月25日 30 50 24

    数据集概述 该数据集包含3张与v7172-11部分骶骨(NSY+NSZ)相关的图片文件,所有文件均为JPG格式,未提供具体描述信息。 文件详解 文件名称: v7172-11b+Y+Z.jpg、v7172-11c+Y+Z.jpg、v7172-11a+Y+Z.jpg 文件格式: JPG(.jpg) 文件类型分布: 所有3个文件均为JPG格式,占比百分之百...
    packageimg
  • IODP第400航次RGB通道数据集_岩心照片计算

    2025年12月23日 30 195 152

    数据集概述 该数据集包含从IODP第400航次岩心照片中提取的RGB通道像素数据,数据基于Section Half Imaging Logger(SHIL)线扫描图像,以约0.5厘米分辨率分箱,使用图像中央2厘米区域的像素信息,为岩心的可视化分析提供支持。 文件详解 说明文档: RGB-README.txt:...
    packageimg