找到299个数据集

标签: 语料库构建

过滤结果
  • Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

    2026年1月5日 0 138 116

    数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
    packageimg
  • KBNL03000040140_Entangled_Histories_乌得勒支地区公告集转录数据1856

    2025年12月31日 30 102 50

    数据集概述 本数据集为《Mr. Johan van de Water's Groot plakkaatboek 'slands van...
    packageimg
  • Multi_CAST_Based_Multi_CAST_Teop多语言医疗CT标注语音文本数据集_V1905

    2025年12月29日 30 101 95

    数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,聚焦医疗CT相关的语音文本标注内容。数据由班贝格大学发布,版本为1905,包含1个压缩文件,无训练测试或数据标签拆分,核心语义关键词为医疗CT,是研究多语言医疗语音文本标注的基础语料。 文件详解 压缩文件 文件名称:Multi-CAST/mcteop-v1905.zip...
    packageimg
  • 俄语词义消歧语料库_RuSemCor

    2025年12月23日 30 103 80

    数据集概述 该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。 文件详解 文件名称: sense_annotations.tsv 文件格式: TSV (.tsv) 字段映射:...
    packageimg
  • Objaverse_Source_Mirror_Based_反射镜3D模型数据与预览素材完整集合

    2025年12月23日 30 93 91

    数据集概述 本数据集包含一个真实反射镜的3D模型及相关预览图片,模型由Blender制作并导出,提供免费下载。数据以文件形式存储,无目录层级,包含5张JPEG预览图和1个GLB格式3D模型文件。 文件详解 该数据集由6个独立文件组成,具体说明如下: - 预览图片文件(共5个): - 文件名示例:...
    packageimg
  • Car_Data_Set_Based_汽车图像数据完整分析数据集

    2025年12月23日 30 160 32

    数据集概述 该数据集包含两百个与汽车相关的图片文件,所有文件均为JPG格式,无目录层级结构。文件命名包含编号和哈希两种模式,无训练测试、数据标签或原始处理等数据划分,未提供自述文件或内容预览。 文件详解 文件类型与数量:共两百个文件,均为JPG格式(.jpg),占比百分之百。 命名模式: 编号命名:一百一十五个文件 哈希命名:七十九个文件...
    packageimg
  • 犹他先锋步道与地标协会联合堡纪念碑数据集109

    2025年12月20日 30 148 26

    数据集概述 该数据集包含美国犹他州米德瓦尔市联合堡购物中心(The Shops at Fort Union)内,由犹他先锋步道与地标协会设立的联合堡纪念碑(编号109)的相关文件,涵盖图片素材与三维模型文件。 文件详解...
    packageimg
  • 费罗线虫新种形态测量数据表

    2025年12月25日 30 151 33

    数据集概述 本数据集为费罗线虫新种(Pheronous jairajpurii sp. nov.)的形态测量数据表,包含正模和12个副模(7雄5雌)个体的体长、头部直径、咽长度等关键形态特征及派生参数(a、b、c值、V%),单位为微米,支持新物种分类学研究。 文件详解 文件名称: table.html 文件格式: HTML (.html) 内容说明:...
    packageimg
  • Objaverse_Shell_Blue_head_alienish_Based_外星风格蓝色头部雕塑三维数字化完整数据

    2025年12月25日 30 189 28

    数据集概述 该数据集包含对名为“Blue head alienish sculpture”的对象进行的测试扫描数据,包含扫描生成的三维模型文件及配套缩略图,为相关模型应用提供基础数据支持。 文件详解 三维模型文件:2ca4d0891b644c64ac51e42fda3ad154.glb,格式为.glb,占文件总数的百分之十六点六七...
    packageimg
  • Objaverse_Meilenstein_L401_Saulheim_Based_索尔海姆三维数字化完整数据

    2025年12月25日 30 23 5

    数据集概述 本数据集包含与Meilenstein L401 Saulheim相关的3D模型及预览图片文件,通过3dScannerApp.com上传,提供该对象的可视化及三维模型数据支持。 文件详解 预览图片文件(共5个): 文件名称:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg...
    packageimg
  • 希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集

    2025年12月18日 30 157 145

    数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
    packageimg
  • Objaverse_Bieketurm_Attendorn_Based_文化建筑三维数字化完整数据

    2025年12月24日 30 70 20

    数据集概述 该数据集包含与Bieketurm Attendorn相关的文件,主要由图片文件和三维模型文件组成,未划分训练/测试、数据/标签或原始/处理数据,无说明文档或内容预览。 文件详解 图片文件(共5个): 文件名称:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg...
    packageimg
  • 美国马里兰州兰哈姆市土耳其宗教事务局迪亚内特中心数据集

    2025年12月24日 30 10 9

    数据集概述 该数据集包含与美国马里兰州兰哈姆市土耳其宗教事务局迪亚内特中心相关的文件,主要为图片和三维模型文件,未提供具体内容预览,文件类型以JPEG格式图片为主,辅以一个GLB格式三维模型文件。 文件详解 图片文件(共5个):...
    packageimg
  • 哥廷根印度语言电子文本注册库_吠檀多数据集

    2025年12月24日 30 159 52

    数据集概述 该数据集是哥廷根印度语言电子文本注册库(GRETIL)中关于吠檀多(VEDĀNTA)主题的电子文本集合,包含六十一个HTML格式的文本文件,未划分目录结构,为印度语言吠檀多相关文本研究提供基础资料。 文件详解...
    packageimg
  • 玛雅作业1药水数据集

    2025年12月23日 30 62 8

    数据集概述 该数据集围绕“玛雅作业1药水”主题,包含6个文件,涵盖图片文件和三维模型文件,为相关三维模型或视觉素材的应用提供基础数据支持。 文件详解 图片文件(共5个): 文件名称:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg 文件格式:JPEG...
    packageimg
  • Archi_Text_Corpus_Based_阿奇语2006_2007年语料库完整数据

    2025年12月23日 30 116 108

    数据集概述 本数据集为阿奇语语料库,包含2006-2007年在阿奇村收集的50余篇多体裁文本,涵盖故事、对话、传说、歌曲等,多数配有音视频记录。内容包含重新录制的1977年已发表文本及新采集文本,本版本文本均源自1977年出版的《阿奇语:文本与词典》。 文件详解 文档文件(共66个,包含两种格式):...
    packageimg
  • SANT_Algae_Based_24661藻类图像数据集完整数据

    2025年12月23日 30 210 130

    数据集概述 该数据集包含编号为24661的SANT-Algae相关图片文件,主要为JPG格式的图像数据,未划分训练/测试集、数据/标签集或原始/处理集,无额外说明文档。 文件详解 图像文件(共3个): P-LAMROD-p-Columbretes-2010-SANT-24661a.jpg:JPG格式,图像文件 P-LAMROD-p-...
    packageimg
  • 罗马尼亚阿尔巴尤利亚阿尔巴卡罗利纳堡垒日晷三维模型

    2025年12月23日 30 8 3

    数据集概述 本数据集为罗马尼亚阿尔巴尤利亚阿尔巴卡罗利纳堡垒的日晷三维模型,包含日晷主体三维文件及多角度缩略图。日晷可追溯至1782年,现藏于国家联合博物馆,模型基于15张照片创建,仅覆盖三面。 文件详解 三维模型文件: 8629b6172fc24ba9b270cf8a2500a1da.glb:GLB格式,为日晷的三维模型文件,精度为1000k面...
    packageimg
  • 美国飞机模型数据集

    2025年12月23日 30 9 1

    数据集概述 本数据集包含美国飞机相关的数字模型文件及预览图片,主要由JPEG格式预览图和GLB格式模型文件构成,为飞机模型的查看与使用提供基础数据支持。 文件详解 文件名称与格式分布: 3531a6e6d4b0409ab322be044b2e96e2.glb:GLB格式文件,占比百分之二十...
    packageimg
  • 乌兹别克语停用词列表数据集

    2025年12月23日 30 155 115

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg