找到57个数据集

标签: 词汇分析

过滤结果
  • 人类语言资源库_基于博罗罗语的词汇数据库存档文件

    2026年2月1日 30 169 125

    数据集概述 本数据集为Bororoan词汇数据库,包含一个压缩文件,属于tupian-language-resources目录下的语言资源,未提供具体描述,文件类型单一为压缩包。 文件详解 文件名称:bororo-v0.9.5.zip 文件格式:ZIP 字段映射介绍:压缩包文件,包含Bororoan词汇数据库相关内容,具体内部结构及字段信息未提供预览。...
    packageimg
  • dictionaria_kalamang_语言词典数据

    2026年1月31日 30 169 62

    数据集概述 本数据集为Kalamang语言词典,由Visser, Eline于2020年发布,属于Dictionaria系列第13卷,内容涵盖1-2737页。数据以压缩包形式提供,是研究Kalamang语言的重要资源。 文件详解 文件名称:dictionaria/kalamang-v1.2.zip 文件格式:ZIP...
    packageimg
  • Kam_Niger_Congo_Based语言比较词表数据

    2026年1月30日 30 190 178

    数据集概述 本数据集是基于莱比锡-雅加达词表收集的比较词表,用于对比Kam语与其他尼日尔-刚果语族语言的基础词汇。包含文献中已有的多种原始语言(如Jukunoid、Mumuyic、原始班图语等)的重构数据,以及作者对尼日尔-刚果语族、贝努埃-刚果语支等的准重构内容和同源词判断,仅包含一个文件。 文件详解 文件名称:Lesage2024-Kam-...
    packageimg
  • CONTRAST_IT_Based_西班牙语报纸文章语料库数据

    2026年1月28日 0 10 7

    数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
    packageimg
  • IN01054_Based_拉维瓦尔曼第11年哈尔西敕令梵语XML数据

    2026年1月26日 30 138 93

    数据集概述 本数据集包含IN01054号拉维瓦尔曼第11年哈尔西敕令的梵语文本XML文件,无元数据信息。数据集仅含一个文件,无目录层级划分,未进行训练/测试、数据/标签或原始/处理数据的拆分,文件类型单一为XML格式。 文件详解 文件名称:IN01054.xml 文件格式:XML...
    packageimg
  • Konsumen_HP_Review_Based_情感分析语料库数据

    2026年1月23日 30 114 95

    数据集概述 本数据集为HP消费者评论数据,用于情感分析语料库的词汇分析。包含两份压缩文件,未进行训练/测试、数据/标签或原始/处理数据的划分,无额外说明文档或内容预览,整体结构简单直接。 文件详解 文件名称:PBA_FP.zip 文件格式:ZIP 字段映射介绍:压缩文件,具体内容未提供预览,推测包含HP消费者评论相关的原始或结构化数据。...
    packageimg
  • IN01002_Based_Rajim_Temple建造梵语XML数据

    2026年1月23日 30 146 10

    数据集概述 本数据集包含关于Rajim Temple的Vilasatunga建造相关的梵语文献XML文件,无元数据信息。数据集仅含一个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试、数据/标签或原始/处理数据等子集。 文件详解 文件名称:IN01002.xml 文件格式:XML 字段映射介绍:文件为梵语文本内容,包含Rajim...
    packageimg
  • ELTeC_ukr_Based_乌克兰小说语料库2021年4月发布数据

    2026年1月23日 30 21 16

    数据集概述 本数据集为ELTeC-ukr乌克兰小说语料库2021年4月发布版本,包含50部编码为1级的乌克兰小说。数据集共2个文件,无目录结构,主要文件类型为压缩包和说明文档,用于支持欧洲文学远程阅读研究。 文件详解 文件名称:README.md 文件格式:MD 字段映射介绍:包含语料库基本信息、贡献者列表、项目背景(COST Action...
    packageimg
  • La_Pola_Siero_Based_阿斯图里亚斯地图问题8方言语料数据

    2026年1月21日 30 21 10

    数据集概述 本数据集为阿斯图里亚斯地图相关的问题8语料,基于La Pola Siero方言构建,包含1个文档文件,无训练/测试、数据/标签或原始/处理数据拆分,文件类型单一为docx格式。 文件详解 文件名称:Mapa de Asturias.Pregunta8.docx 文件格式:docx...
    packageimg
  • IN02028_Based_Siddham档案待整合_梵语碑文铭文XML草案数据

    2026年1月19日 30 176 104

    数据集概述 本数据集为IN02028 Cyasaltole Patan碑刻铭文的梵语XML文件,是Epidoc格式的草案版本,不含元数据,计划纳入"Siddham"档案。数据记录了该碑刻铭文的数字化文本内容,为古文字学、梵语研究提供基础资料。 文件详解 文件名称:IN02028.xml 文件格式:XML...
    packageimg
  • dictionaria_sanzhi_Sanzhi_Dargwa词典数据_2019

    2026年1月18日 30 38 12

    数据集概述 本数据集为Sanzhi Dargwa语言的词典数据,由Diana Forker于2019年发布,收录于Dictionaria第5卷。数据以压缩包形式提供,包含Sanzhi Dargwa语言的词典内容,可用于语言研究、词典编纂等相关场景。 文件详解 文件名称:dictionaria/sanzhi-v1.2.zip 文件格式:ZIP...
    packageimg
  • IN02054_Sanskrit_XML阿姆苏瓦尔马水库铭文梵语文本数据_Draft

    2026年1月18日 30 196 52

    数据集概述 本数据集包含阿姆苏瓦尔马水库铭文(IN02054)的梵语XML文件,为Epidoc格式草稿版本,将纳入"Siddham"档案。数据核心为铭文文本内容,无元数据,仅含一个XML文件,用于铭文研究与数字化存档。 文件详解 文件名称:IN02054.xml 文件格式:XML...
    packageimg
  • IN01056_Sanskrit_XML_拉维瓦尔曼授予金德拉的哈尔西特许状石刻数据

    2026年1月18日 30 78 43

    数据集概述 本数据集包含编号IN01056的哈尔西特许状(共3块石刻)的梵语文本XML文件,记录拉维瓦尔曼对金德拉的授予内容。数据无元数据,仅含1个XML文件,用于古文献数字化研究与梵语铭文分析。 文件详解 核心文件 文件名称:IN01056.xml 文件格式:XML...
    packageimg
  • Annexe_7_Corpus_Based_法国媒体文章与公民评论完整语料库数据

    2026年1月15日 30 191 0

    数据集概述 本数据集为Annexe 7法国媒体文章与公民评论完整语料库,包含法国媒体发布的文章及公民对其的评论内容,以压缩包形式提供,是用于自然语言处理研究的文本语料资源。 文件详解 文件名称:7. Annexe 7 Corpus version complète articles médias et commentaires citoyens...
    packageimg
  • IN01035_Sanskrit_Bennur_Krsnavarman_II授权文书XML数据

    2026年1月12日 30 65 8

    数据集概述 本数据集包含编号为IN01035的Bennur Grant of Kṛṣṇavarman II梵语XML文件,未包含元数据。文件记录了Kṛṣṇavarman II的授权文书内容,为研究古代梵语历史文献提供原始文本数据支持,数据集仅有一个文件。 文件详解 文件名称:IN01035.xml 文件格式:XML...
    packageimg
  • IN01040_Sanskrit_Based_Mrgesavarman第7年授权文书梵语XML数据

    2026年1月6日 30 136 0

    数据集概述 本数据集包含IN01040号Hiṭnahebbāgilu地区Mṛgeśavarman第7年授权文书的梵语文本XML文件,无元数据。文件数量为1,未划分训练/测试集、数据/标签集或原始/处理集,主要用于梵语历史文献的数字化存储与分析。 文件详解 梵语授权文书文件 文件名称:IN01040.xml 文件格式:XML...
    packageimg
  • IN01022_Sanskrit_Based_Harivarman王5年Halsi授予文书梵语XML数据

    2026年1月1日 30 23 15

    数据集概述 本数据集为IN01022号文献,即Harivarman王5年的Halsi授予文书的梵语XML文件,不含元数据。数据集仅包含一个文件,用于呈现古代印度授予文书的原始梵语文本内容,是研究古代印度历史、文书制度的基础资料。 文件详解 文件名称:IN01022.xml 文件格式:XML...
    packageimg
  • IN02004_Sanskrit_Base_of_Pillar_Inscription梵语铭文XML草稿数据

    2025年12月29日 30 24 21

    数据集概述 本数据集包含IN02004号Changu Narayana柱基铭文的梵语XML文件,为Epidoc格式草稿版,无元数据,计划纳入"Siddham"档案。数据记录该柱基铭文的梵语文本内容,是研究古代铭文文献的基础资料。 文件详解 文件名称:IN02004.xml 文件格式:XML...
    packageimg
  • Nonuya_Language_Based_母语者语言转录词汇数据完整文档

    2025年12月18日 30 41 26

    数据集概述 该数据集收录了Nonuya语言(属于Witoto语系)的八千六百九十三条词汇和表达录音转录文本,涵盖四位母语者的语言材料,包含对原始转录的修订、统一使用AFI符号及添加引用标识符等优化内容。 文件详解 文件名称:NONUYA2019.v4.pdf 文件格式:PDF 内容说明:Nonuya语言转录文本的修订版本文件...
    packageimg
  • Dictionaria_Daakaka_Based_达卡卡语言词典研究完整数据

    2025年12月24日 30 50 2

    数据集概述 该数据集为Daakaka语言词典数据,包含由Kilu Prince于2017年发布的《Daakaka dictionary》内容,是Dictionaria项目的一部分,为研究Daakaka语言提供基础词典资料。 文件详解 文件名称: dictionaria/daakaka-v1.3.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg