找到576个数据集

标签: 语料库建设

过滤结果
  • OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

    2026年1月28日   

    数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
    packageimg
  • IN02095_Based_Siddham档案梵语铭文XML数据

    2026年1月28日   

    数据集概述 本数据集为IN02095 Changu Narayana Gate Sivalinga基座铭文的梵语XML文件,属于Epidoc格式的草稿版本,计划纳入Siddham档案。数据记录了该铭文的文本内容,无元数据,是研究该梵语铭文的数字化基础资料。 文件详解 文件名称:IN02095.xml 文件格式:XML 字段映射介绍:包含IN02095...
    packageimg
  • Mienic_lexical_isogloss_database

    2026年1月28日   

    数据集概述 本数据集为Mienic语言词汇同言线数据库,包含已识别或潜在的Mienic语言变体词汇同言线相关信息,以单个Excel文件形式呈现,无目录结构和文件拆分,可用于语言变体的词汇特征分布研究。 文件详解 文件名称:Mienic_lexical_isogloss_database.xlsx 文件格式:XLSX...
    packageimg
  • ERC_Cog_PROMENADE_Based_隐喻语料库数据集

    2026年1月28日   

    数据集概述 本数据集是ERC_Cog PROMENADE项目WP1的隐喻语料库,由NEPLab收集整理,整合日常隐喻(464条)和文学隐喻(533条)两类实验研究数据,支持通过专用ShinyApp查询,共包含13个文件,可用于隐喻认知与神经语言学研究。 文件详解 文档文件(document_files) 文件名称:README archive.md...
    packageimg
  • IN02083_EpiDoc_加德满都黑石铭文梵语XML草稿数据

    2026年1月28日   

    数据集概述 本数据集为IN02083加德满都黑石铭文的梵语XML文件,属于EpiDoc格式的草稿版本,不含元数据,计划纳入“Siddham”档案。数据集仅包含一个文件,无目录层级划分,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:IN02083.xml 文件格式:XML...
    packageimg
  • Objaverse_Source_10_7_3D模型及缩略图数据

    2026年1月28日   

    数据集概述 本数据集包含与编号“10-7”相关的3D模型及配套缩略图文件,来源于Objaverse 1.0 / Sketchfab。数据以扁平化结构存储,无目录层级,总计6个文件,涵盖.glb格式3D模型和.jpeg格式缩略图两类文件类型。 文件详解 3D模型文件 文件名称:14b531601550415a932eea9a96d40fa3.glb...
    packageimg
  • 金标准平行圣经_德语_英语新约文本_附带斯特朗编号注释及评估数据

    2026年1月27日   

    数据集概述 本数据集为平行圣经文本提供黄金标准,包含20段新约经文的Strong编号标注数据,涉及三种德文文本(Luther 2017、Schlachter、Hoffnung für alle)和两种英文文本(New Revised Standard Version、World English Bible),用于评估圣经文本的Strong编号标注工作。...
    packageimg
  • MaReTE_Based_古埃及象形文字词汇音译模型数据_2023

    2026年1月27日   

    数据集概述 本数据集包含基于Ramses音译语料库和AES古埃及语句料库构建的古埃及象形文字词汇音译模型,用于实现象形文字到现代文字的音译转换。数据集提供训练好的模型文件、辅助文件及源码,支持古埃及文字数字化研究,共包含9个文件。 文件详解 文档类文件 文件名称:Readme.txt 文件格式:TXT...
    packageimg
  • ELTeC_hun_Based_匈牙利小说语料库数据2021_04

    2026年1月27日   

    数据集概述 本数据集为ELTeC(欧洲文学文本集)项目下的匈牙利小说语料库2021年4月版本,包含100部编码为1级和2级的小说,总计2个文件,无目录层级结构。数据由欧洲文学历史远程阅读COST行动项目产出,支持欧洲文学的数字化研究。 文件详解 README.md 文件格式:MD...
    packageimg
  • nlp_text_sentence_Based_汉印尼复合句数据集

    2026年1月27日   

    数据集概述 本数据集包含普通话与印尼语的复合句数据,核心内容围绕两种语言的复合句展开,为自然语言处理领域提供研究资源。数据集文件数量为1,无目录结构,主要文件格式为xlsx。 文件详解 文件名称:Data Set of Compound Sentences in Mandarin and Indonesian.xlsx 文件格式:XLSX...
    packageimg
  • SAILS_2014_Based_南美原住民语言结构在线数据_存档

    2026年1月27日   

    数据集概述 本数据集为2014年发布的“南美原住民语言结构(SAILS)在线”项目数据,包含南美原住民语言的结构信息,由马克斯·普朗克进化人类学研究所发布,以压缩包形式提供,仅含一个文件。 文件详解 文件名称:sails-v2014.zip 文件格式:ZIP(压缩包)...
    packageimg
  • ReM_Based_中古高地德语参考语料库标注文本数据_2016版

    2026年1月27日   

    数据集概述 本数据集为中古高地德语参考语料库(ReM),包含1050–1350年间的转录标注文本,规模约200万词形。文本经数字化处理,标注有词性、形态和词元等信息,支持历史语言学及相关研究。ISLRN编号332-536-136-099-5,含3个文件。 文件详解 归档文件组(archive_files) 文件名称:rem-...
    packageimg
  • novel_request_Based_十部小说中文请求句语料数据

    2026年1月27日   

    数据集概述 本数据集包含从十部小说中提取的中文请求句语料,核心内容为小说中的请求类句子集合,可用于中文自然语言处理领域的相关研究,数据集仅包含一个文件。 文件详解 文件名称:corpus novel_request.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,文件内容为从十部小说中提取的中文请求句语料集合 适用场景...
    packageimg
  • Khopesh_Objaverse_Source_3D模型资源数据

    2026年1月27日   

    数据集概述 本数据集为Khopesh相关的3D模型资源数据,包含6个文件,主要由图片和3D模型文件组成,无目录结构,未划分训练测试集、数据标签集或原始处理集,无README或内容预览文件。 文件详解 图片文件(.jpeg) 文件名称:thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg...
    packageimg
  • Lolo_Burmese_Based彝缅语比较词汇数据库_未完成版

    2026年1月27日   

    数据集概述 本数据集为彝缅语比较词汇数据库,整合了Shintani(2001)和Lama(2012)的词汇表与释义内容,以电子表格形式呈现,目前仍处于开发中。数据集包含一份文件,用于支持彝缅语族语言的词汇比较研究。 文件详解 文件名称:Lolo-Burmese_lexical_database.xlsx 文件格式:XLSX...
    packageimg
  • Objaverse_1_0_Source_古文明水晶数据_原始数据

    2026年1月27日   

    数据集概述 本数据集来自Objaverse 1.0 / Sketchfab,包含6个与古文明水晶相关的文件,分为JPEG格式缩略图和GLB格式模型文件两类,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集,无README或内容预览。 文件详解...
    packageimg
  • musiXplora_Fritz_Grube音乐人物数字化档案数据

    2026年1月27日   

    数据集概述 本数据集为音乐人物Fritz Grube的数字化档案,包含其基本身份信息、职业背景、活动地点、相关文献及事件记录等内容,通过结构化JSON文件呈现,是研究该音乐人物的核心参考资料。 文件详解 g1897_DE.json 文件格式:JSON...
    packageimg
  • IPBES_MTA_Snowball_Based文献检索支持文件数据

    2026年1月27日   

    数据集概述 本数据集包含IPBES监测评估(MTA)项目1-4章文献检索的支持文件,由IPBES数据知识TSU与监测评估TSU合作提供,旨在为作者提供全面的文献语料库支持,相关处理代码托管于GitHub指定仓库。 文件详解 文件名称:data.zip 文件格式:ZIP 字段映射介绍:压缩包内包含IPBES...
    packageimg
  • Staffrider_Based_南非反种族隔离文学杂志内容整理数据

    2026年1月25日   

    数据集概述 本数据集整理了南非反种族隔离文学文化杂志《Staffrider》的内容信息,该杂志发行于1978至1993年,共37期,涵盖南非及南部非洲多国作品,以英文为主并包含其他南非语言内容。数据源自夸祖鲁-纳塔尔大学南非数字创新中心的数字化档案,包含两份结构化文件。 文件详解 文件名称:Staffrider_complete.xlsx...
    packageimg
  • 阿马迪西格洛二十世_埃米莉亚_帕尔多_巴赞作品_失望_数据_v1_1

    2026年1月26日   

    数据集概述 本数据集属于AmadissigloXX数据库(由Elisabetta Sarmati主持),聚焦Emilia Pardo Bazán于1903年创作的《Desencanto》。该数据库收录现代对骑士文学书籍及《堂吉诃德》的重写作品,本部分提供《Desencanto》的元数据与完整数据库版本,共包含两个文件。 文件详解 JSON格式文件...
    packageimg