CuneiML_Based_楔形文字机器学习数据集

数据集概述

本数据集为楔形文字机器学习研究提供支持,包含38,947张楔形文字泥板照片的元数据、边界框信息,以及对应文本的音译和楔形文字Unicode编码。数据结构涵盖泥板正反两面的文字内容、地理来源、时间年代和文本类型等信息,适用于楔形文字的图像识别与文本分析任务。

文件详解

  • 文件名称:CuneiMLv1.2.json
  • 文件格式:JSON
  • 字段映射介绍:
  • id:泥板唯一标识ID
  • img_url:泥板照片链接
  • lineart:泥板线条图链接
  • bboxes:泥板文字区域边界框坐标(左上、右下顶点)
  • text:包含正反两面(obverse/reverse)的文字内容,每个条目含raw(原始文本)、num(行号)、sign(楔形文字Unicode)
  • geo:泥板地理来源(如Umma)
  • time:泥板所属年代(如Ur III时期)
  • genre:文本类型(如Administrative)

数据来源

论文“CuneiML: A Cuneiform Dataset for Machine Learning”(发表于Journal of Open Humanities Data)

适用场景

  • 楔形文字图像识别研究:利用边界框和图像链接训练楔形文字符号检测与识别模型
  • 楔形文字文本分析:基于音译和Unicode编码开展楔形文字语义解析与语料库构建
  • 古代文明数字化研究:结合地理、时间信息分析楔形文字泥板的时空分布特征
  • 人文数据机器学习应用:探索机器学习技术在古代文字研究领域的应用潜力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 195.06 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。