-
HTR_Based_中世纪拉丁及法语手稿文档识别模型数据集
2026年1月30日 30 190 131
数据集概述 本数据集用于训练和评估适用于拉丁及法语中世纪文档手稿的手写文本识别(HTR)模型,包含12-15世纪的宪章、登记簿等手稿数据,涉及1855页、12万行文本及近100万字符,整合了Alcar-HOME、e-NDP、Himanis三个开源真实语料库,支持多语言多字体识别,可用于中世纪文献的数字化处理。 文件详解 GT_list:...
-
HHD_v0_2_Updated_Based_希伯来字符手写图像数据集
2026年1月26日 30 52 1
数据集概述 本数据集是HHD_v0的更新版本,修正了部分错误标签,包含从手写表格中收集的孤立希伯来字符图像,以及训练集和测试集的划分信息,为希伯来手写字符识别研究提供结构化图像数据。 文件详解 文件名称:hhd_dataset.zip 文件格式:ZIP...
-
Dzongkha_Handwritten_Digit_Dataset_NLP任务数据集
2026年1月13日 30 60 10
数据集概述 本数据集为宗喀语手写数字图像数据,包含1000张JPG格式图像,涵盖0至9共10类宗喀语数字字符,由不丹100名不同背景人员手写采集,旨在填补宗喀语手写字符识别基准数据集的空白,支持自然语言处理相关研究。 文件详解 文件名称:Dataset.zip 文件格式:ZIP...
-
巴黎与耶路撒冷地图文本数据集
2025年12月16日 30 154 132
数据集概述 本数据集包含八十二份来自巴黎与耶路撒冷历史城市地图的标注样本,以JSON和PKL格式存储地图文本的多边形坐标、转录内容及质量标签(如是否截断、难以辨认),适用于地图文本检测、识别与序列分析任务。 文件详解 核心标注文件:...
-
社交媒体多语言攻击性语言识别数据集2020_英文
2025年12月7日 30 92 0
数据集概述 该数据集为SemEval-2020 Task 12(OffensEval 2020)的英文部分数据,包含基于OLID schema的三个子任务测试集及相关文件,用于社交媒体攻击性语言识别,支持多语言任务的英文场景分析。 文件详解 说明文档: README.md:Markdown格式,介绍数据集背景、任务结构及文件说明,包含任务官网链接...
-
普什图语孤立词语音数据集PashtoIsolatedWordsSpeechDataset-engrirf
2025年5月28日 30 59 44
普什图语孤立词语音数据集PashtoIsolatedWordsSpeechDataset-engrirf 数据来源:互联网公开数据 标签:语音识别,普什图语,数据集,自然语言处理,机器学习,多语言识别,语音技术,人工智能 数据概述: 该数据集包含普什图语孤立词的语音数据,记录了普什图语中常用孤立词汇的发音。主要特征如下:...
-
语言检测数据集2010-2020年文本语言识别数据集-mogazeyalmogazey
2025年4月24日 30 98 22
语言检测数据集2010-2020年文本语言识别数据集-mogazeyalmogazey 数据来源:互联网公开数据 标签:语言检测,文本分析,数据集,自然语言处理,机器学习,多语言识别,文本分类,人工智能 数据概述: 该数据集包含来自不同来源的文本数据,记录了多种语言的文本样本,适用于语言检测和识别任务。主要特征如下:...



