找到576个数据集

标签: 语料库建设

过滤结果
  • GUIPilot_Based_移动GUI一致性测试数据集

    2026年1月30日   

    数据集概述 本数据集包含论文“GUIPilot: A Consistency-based Mobile GUI Testing Approach for Detecting Application-specific Bugs”(ISSTA...
    packageimg
  • PaGA_12_Based_26类体裁德语文本分类语料库

    2026年1月30日   

    数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
    packageimg
  • Objaverse_Source_印加石星锤文物数字化数据

    2026年1月30日   

    数据集概述 本数据集包含印加时期石星锤文物的数字化资源,该文物源自秘鲁,1897年被纳入Sáenz收藏。数据集共6个文件,涵盖文物的图片预览与三维模型文件,用于文化遗产数字化展示与研究。 文件详解...
    packageimg
  • XML_corpus_Based_文学文本XML语料库数据

    2026年1月30日   

    数据集概述 本数据集为XML格式的文学文本语料库,包含席勒、莱辛、克莱斯特、歌德、蒂克等作家的作品,共56个XML文件,无目录层级结构,未划分训练/测试、数据/标签或原始/处理集,所有文件均为XML格式,其中5个含XML元数据。 文件详解 核心文件:...
    packageimg
  • Iliad_BookOne_多语言翻译词级对齐树库注释数据

    2026年1月30日   

    数据集概述 本数据集包含《伊利亚特》第一卷的波斯语和库尔德语翻译文本,与树库进行词级对齐,并附有Didakta注释及双语词汇表。整合了UD树库和Perseus树库数据,支持古典文学翻译、多语言对齐及词汇研究,共含8个文件。 文件详解 翻译与树库对齐文件 文件名称:Iliad one Treebank (UD and Perseus) with...
    packageimg
  • ELTeC_gsw_Based_瑞士德语小说集_公开数据集

    2026年1月30日   

    数据集概述 本数据集是欧洲文学文本集合(ELTeC)的瑞士德语小说子集,由COST Action "Distant Reading for European Literary History"项目生成,包含100部符合语料库构成标准的瑞士德语小说,采用TEI编码,支持欧洲文学远程阅读研究,总计102个文件。 文件详解 核心数据文件...
    packageimg
  • CLDF_NorthPeruLex_秘鲁北部小语种词汇数据集

    2026年1月29日   

    数据集概述 本数据集为基于CLDF格式的词汇数据集,源自Ugarte等人即将发布的"NorthPeruLex"项目,收录秘鲁北部小语种家族及孤立语言的词汇信息,为该区域语言研究提供结构化数据支持。 文件详解 主文件包 文件名称:lexibank/northperulex-v0.2.zip 文件格式:ZIP...
    packageimg
  • Caucalex_Based_高加索52语言词汇数据集1_0

    2026年1月29日   

    数据集概述 本数据集为Caucalex 1.0,包含高加索地区52种语言的词汇数据,覆盖卡尔特维利语系、纳赫-达吉斯坦语系、西北高加索语系、印欧语系和突厥语系五大语言家族,是研究高加索语言词汇特征的基础资料。 文件详解 文件名称:Caucalex 1.0.xlsx 文件格式:XLSX...
    packageimg
  • Bodhgaya_Source_菩提伽耶遗址铭文工作清单数据

    2026年1月29日   

    数据集概述 本数据集是菩提伽耶遗址铭文的工作清单,包含该遗址相关铭文的整理信息。数据集仅包含一个文件,为Excel格式,未划分训练/测试集、数据/标签集或原始/处理数据集,文件类型单一,无自述文件或内容预览。 文件详解 文件名称:BG list.xlsx 文件格式:XLSX...
    packageimg
  • 詹姆斯_乔伊斯_尤利西斯_内部独白研究档案_相关文献补充材料

    2026年1月29日   

    数据集概述 本数据集是提交给《Literature》期刊的论文《A Register-Based Study of Interior Monologue in James Joyce's Ulysses》的补充材料,包含1个压缩文件,为该文学研究提供额外支持资料。 文件详解 文件名称:SupMat.zip 文件格式:ZIP...
    packageimg
  • Chacon_2022_西北阿拉瓦克语族注释斯瓦迪士词表数据集

    2026年1月29日   

    数据集概述 本数据集为Chacon于2022年发布的西北阿拉瓦克语族注释斯瓦迪士词表CLDF数据集,包含1个压缩文件,存储于单一目录下,无训练测试或原始处理数据拆分,主要用于语言进化与比较语言学研究。 文件详解 压缩文件 文件名称:lexibank/chaconnorthwestarawakan-v1.0.zip 文件格式:ZIP...
    packageimg
  • La_Pola_Siero_阿斯图里亚斯地图第2问方言语料数据

    2026年1月29日   

    数据集概述 本数据集为阿斯图里亚斯地图第2问相关的La Pola Siero方言语料,包含一份文档文件,聚焦该方言在特定问题场景下的语言表达,为方言研究提供原始语料支持。 文件详解 文件名称:Mapa de Asturias.Pregunta2.docx 文件格式:DOCX...
    packageimg
  • La_Pola_Siero_阿斯图里亚斯地图第4问口语语料数据

    2026年1月29日   

    数据集概述 本数据集包含与“阿斯图里亚斯地图:第4问”相关的La Pola Siero地区口语语料,核心为1份docx格式文档,未区分训练/测试、数据/标签或原始/处理数据,无额外目录层级,文件类型单一。 文件详解 文件名称:Mapa de Asturias.Pregunta4.docx 文件格式:docx...
    packageimg
  • Objaverse_Source_女性拟人造型陶罐3D模型数据

    2026年1月29日   

    数据集概述 本数据集包含女性拟人造型陶罐的3D模型及预览图片,源自Objaverse 1.0平台,共6个文件,涵盖1个GLB格式3D模型文件和5个JPEG格式预览图,无目录层级结构,可用于数字文物展示、3D模型研究等场景。 文件详解 3D模型文件 文件名称:a4b91ce1d48d4d388b76052ba1306877.glb 文件格式:GLB...
    packageimg
  • musiXplora_Johann_Bauhof音乐家档案数据

    2026年1月28日   

    数据集概述 本数据集为音乐家Johann Bauhof的结构化档案数据,包含其基础身份信息、职业背景、活动地点及相关元数据。数据通过JSON格式存储,涵盖musiXplora平台分配的唯一标识、首次提及年份、音乐职业等核心内容,为研究该音乐家提供标准化参考。 文件详解 文件名称:b2014_DE.json 文件格式:JSON...
    packageimg
  • CLS_INFRA_Based_基线方法学用户需求分析补充数据

    2026年1月28日   

    数据集概述 本数据集为CLS INFRA框架下WP3的基线方法学用户需求分析补充数据,包含语料库元数据、格式/方法/工具分析结果等9个文件,覆盖全量与开放获取、CLS分类的语料库信息,支持自然语言处理领域的用户需求研究与语料库分析。 文件详解 说明文档类 文件名称:0_README.md 文件格式:MD 字段映射介绍:提供数据集开发背景(CLS...
    packageimg
  • Objaverse_Source_Scroll模型及缩略图数据

    2026年1月28日   

    数据集概述 本数据集包含与Scroll相关的3D模型及配套缩略图,源自Objaverse 1.0,总计六个文件。数据以平面目录结构存储,无分层目录,未划分训练/测试集、数据/标签集或原始/处理集,主要文件类型为JPEG缩略图和GLB格式3D模型。 文件详解 JPEG缩略图文件...
    packageimg
  • Objaverse_Sketchfab_Rifle武器模型数据

    2026年1月28日   

    数据集概述 本数据集包含Winchester品牌Rifle武器的相关模型数据,主要由图片文件和3D模型文件组成,可用于武器模型的展示、查看等场景,共包含6个文件。 文件详解 .jpeg文件(共5个) 文件名称:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg 文件格式:JPEG...
    packageimg
  • Objaverse_Source_B4693_Back模型数据

    2026年1月28日   

    数据集概述 本数据集包含B4693 Back相关的3D模型及缩略图文件,来源于Objaverse 1.0,共6个文件,无目录结构,包含.glb格式的3D模型文件和.jpeg格式的缩略图文件,未进行训练/测试、数据/标签或原始/处理的拆分。 文件详解 3D模型文件 文件名称:9049125c5fd6457096e106924ec9c5fb.glb...
    packageimg
  • FiloBass_Based_爵士贝斯线数据集与语料库研究数据

    2026年1月28日   

    数据集概述 本数据集是论文《FiloBass: A Dataset and Corpus Based Study of Jazz Basslines》的配套数据,发表于ISMIR 2023。核心内容为爵士贝斯线相关的数据集与语料库,用于支持爵士贝斯线的研究分析,仅包含一个压缩文件。 文件详解 文件名称:FiloBass_v1.0.0.zip...
    packageimg