找到576个数据集

标签: 语料库建设

过滤结果
  • IN02015_基于梵语的塔科特阿迪_纳拉亚纳神庙铭文XML数据_草稿

    2026年1月26日   

    数据集概述 本数据集为Thankot地区Adi-Narayana寺庙的梵语铭文数据,包含一份无元数据的XML格式文件,属于Epidoc标准的草稿版本,拟纳入“Siddham”档案。数据记录了该寺庙铭文的数字化内容,为研究印度古代铭文提供原始文本资源。 文件详解 文件名称:IN02015.xml 文件格式:XML...
    packageimg
  • OMOP2OBO_Source_医疗术语与生物医学本体映射数据V1_0

    2026年1月26日   

    数据集概述 本数据集为OMOP2OBO疾病事件映射数据V1.0,包含OMOP标准临床术语(SNOMED CT)与Human Phenotype Ontology(HPO)、Mondo本体的映射关系。映射通过OMOP2OBO算法自动生成或人工创建,经UMLS语义类型过滤后,采用TF-...
    packageimg
  • Objaverse_Source_考古摄影比例尺与标尺低多边形模型数据

    2026年1月26日   

    数据集概述 本数据集包含考古摄影场景使用的比例尺与标尺3D模型及预览图,适用于考古建模与场景构建。数据集共6个文件,涵盖JPEG格式预览图和GLB格式3D模型文件,可直接用于考古相关的3D模型开发与场景设计。 文件详解 .jpeg格式文件(5个)...
    packageimg
  • JALCOS_CELEN_Based日语学习者西班牙语写作语料库_2023版

    2026年1月20日   

    数据集概述 本数据集为日语学习者西班牙语语料库(JALCOS)1.2版,包含222名日语母语大学生(英语为第二语言、西班牙语为第三语言)2004年撰写的222篇西班牙语作文(约8.7万字)。作文基于7个主题(含议论文、记叙文),每条数据附作者背景、写作条件等元数据,遵循国际学习者语料库标准构建,用于西班牙语二语习得研究。 文件详解...
    packageimg
  • Objaverse_Sketchfab_伦敦巴比肯罗马城墙堡垒塔数据

    2026年1月26日   

    数据集概述 本数据集为伦敦巴比肯区域的罗马城墙堡垒塔相关数字化资源,该堡垒塔位于伦敦Londinium罗马要塞西北角,是中世纪建筑遗迹。数据集包含数字化模型文件和预览图片,用于呈现该历史建筑的外观与结构特征。 文件详解 数字化模型文件:951e88b5e6bc449c8e71016a2ae5540d.glb,格式为GLB,是该堡垒塔的三维模型文件...
    packageimg
  • ACORNS_Based_Caregiver数据集HAC特征及元数据

    2026年1月25日   

    数据集概述 本数据集包含ACORNS Caregiver数据集的共现特征直方图,以及对应的元数据文件。数据来源于ACORNS项目,其中.mat文件为特征数据,部分文件通过Python代码提取并带有"_python"后缀;.json文件为数据集元数据。数据集总计30个文件,主要用于多模态特征分析。 文件详解 .mat文件(共28个)...
    packageimg
  • AmadissigloXX_Based_文学改编作品数据库_1932

    2026年1月23日   

    数据集概述 本数据集属于AmadissigloXX数据库(由Elisabetta Sarmati指导),包含Alejandro Casona于1932年创作的《Lohengrin》相关数据,记录了骑士文学及《堂吉诃德》现代改编作品的元数据与完整数据库内容,共2个文件。 文件详解 JSON文件: 文件名称:5300.json 文件格式:JSON...
    packageimg
  • Cercle_Chupicuaro_Based_三维模型与缩略图数据

    2026年1月23日   

    数据集概述 本数据集包含与Cercle Chupicuaro相关的6个文件,涵盖三维模型文件和缩略图文件两类。数据源自Objaverse 1.0与Sketchfab平台,无目录层级结构,未进行训练测试、数据标签或原始处理数据的划分,可用于文化遗产数字化展示或三维模型相关研究。 文件详解 三维模型文件...
    packageimg
  • IN02037_Based_Khopasi石刻铭文梵语XML草稿数据

    2026年1月23日   

    数据集概述 本数据集包含IN02037号Khopasi石刻铭文的梵语XML文件,为Epidoc格式草稿版本,无元数据,计划纳入"Siddham"档案。数据核心为该石刻铭文的数字化文本,是石刻文献研究的基础资料。 文件详解 文件名称:IN02037.xml 文件格式:XML...
    packageimg
  • Objaverse_Sketchfab_P_5腹部三维模型及缩略图数据

    2026年1月23日   

    数据集概述 本数据集包含P-5主题下的腹部三维模型及配套缩略图,涉及Abdomen 3.0 830s 60 imágenes相关内容,共6个文件,无目录层级,主要由JPEG格式缩略图和GLB格式三维模型组成,可用于腹部三维模型的查看与基础应用。 文件详解 缩略图文件(JPEG格式)...
    packageimg
  • IN01002_Based_Rajim_Temple建造梵语XML数据

    2026年1月23日   

    数据集概述 本数据集包含关于Rajim Temple的Vilasatunga建造相关的梵语文献XML文件,无元数据信息。数据集仅含一个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试、数据/标签或原始/处理数据等子集。 文件详解 文件名称:IN01002.xml 文件格式:XML 字段映射介绍:文件为梵语文本内容,包含Rajim...
    packageimg
  • Marian_Keyes_Based小说专有名词提取分析数据集2020

    2026年1月23日   

    数据集概述 本数据集为爱尔兰研究委员会资助的博士论文相关研究成果,分析了Marian Keyes1995-2020年出版的14部小说中的专有名词,包含角色名称等内容。虽结果无统计显著性未纳入最终论文,但可为其他研究者提供角色名称停用词表,支持远读方法分析。 文件详解 文件名称:An analysis of proper nouns in Marian...
    packageimg
  • ELTeC_ukr_Based_乌克兰小说语料库2021年4月发布数据

    2026年1月23日   

    数据集概述 本数据集为ELTeC-ukr乌克兰小说语料库2021年4月发布版本,包含50部编码为1级的乌克兰小说。数据集共2个文件,无目录结构,主要文件类型为压缩包和说明文档,用于支持欧洲文学远程阅读研究。 文件详解 文件名称:README.md 文件格式:MD 字段映射介绍:包含语料库基本信息、贡献者列表、项目背景(COST Action...
    packageimg
  • XCB_003_Arctic_Izembek阶段考古遗址文物数字化数据

    2026年1月23日   

    数据集概述 本数据集包含阿拉斯加半岛Izembek阶段类型遗址XCB-003出土的抛光板岩端刃文物数字化资料,该遗址由A.P. McCartney于1971年发掘,年代约为公元1200-1350年。数据通过Faro Edge Arm或Minolta Vivid...
    packageimg
  • Objaverse_Based_GP_2021_T2_close_三维模型与缩略图资源数据

    2026年1月17日   

    数据集概述 本数据集包含GP 2021 T2 close相关的三维模型文件及配套缩略图,共6个文件,无目录层级结构。主要用于三维模型的存储与预览,支持快速查看模型外观与内容。 文件详解 三维模型文件 文件名称:08a30a47aed74e0893745dabaa35f4da.glb 文件格式:GLB 字段映射介绍:包含GP 2021 T2...
    packageimg
  • WoPoss_Source_拉丁语模态演变研究语料库标注样本_2022

    2026年1月22日   

    数据集概述 本数据集是WoPoss团队标注的WoPoss语料库样本,包含五部拉丁语经典文本:M. Minucius Felix的《Octavius》、P. Ovidius Naso的《Metamorphoses》(第一卷)、G. Petronius Arbiter的《Satyricon》、Q. S. F. Tertullianus的《De...
    packageimg
  • Zhivlov_Ob_Ugrian_Swadesh词表注释数据2011

    2026年1月22日   

    数据集概述 本数据集基于Zhivlov于2011年发布的《Ob-Ugrian语族(乌拉尔语系)注释Swadesh词表》,由The Global Lexicostatistical Database提供。数据以压缩包形式存储,包含Ob-Ugrian语族的Swadesh词表注释内容,是研究该语族词汇特征的基础资料。 文件详解...
    packageimg
  • f0471_musiXplora_Hans_Franck历史人物档案数据

    2026年1月22日   

    数据集概述 本数据集为历史人物Hans Franck(musiXplora-ID: f0471)的结构化档案数据,包含其姓名、生卒信息、活动时间、职业领域(如乐器制造、教堂相关)、历史及音乐职业分类、活动地点及相关文献引用等内容,以JSON格式存储,是研究中世纪音乐相关手工业者的基础资料。 文件详解 文件名称:f0471_DE.json...
    packageimg
  • UNIC_JSON_Template_Based_对齐语料库数据上传模板

    2026年1月22日   

    数据集概述 本数据集为UNIC平台上传对齐语料库数据所需的JSON模板文件,用于规范单文件对齐语料库数据的上传格式。数据集包含一个JSON格式的模板文件,无目录结构,可联系unic@dipintra.it获取协助。 文件详解 文件名称:UNIC_Template for uploading aligned data.json 文件格式:JSON...
    packageimg
  • PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1

    2026年1月22日   

    数据集概述 本数据集为西班牙临床病例语料库(SPACCC)的句子分割标注第一版,由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件,无目录层级,无训练/测试、数据/标签等分割,可用于西班牙语临床文本的句子分割任务研究与模型训练。 文件详解 文件名称:SPACCC_SPLIT.zip 文件格式:ZIP...
    packageimg