找到33个数据集

标签: 词汇表

过滤结果
  • 伊纳蒂语词汇表数据集

    2025年12月22日 30 95 20

    数据集概述 本数据集包含伊纳蒂语(Inati)词汇表相关资料,由母语者Delia Panden编写,旨在作为小学入门教材。内容涵盖手写手稿照片及部分英文注释文档,为伊纳蒂语研究提供基础数据支持。 文件详解 图片文件(共12个):...
    packageimg
  • 数据质量评估需求规范与交换词汇表

    2025年12月22日 30 101 64

    数据集概述 该数据集是用于规范和交换数据质量评估需求的词汇表(DaQAR),基于已有成熟词汇表(如数据质量词汇表DQV)构建,为数据质量评估需求的标准化表达提供支持。 文件详解 daqar.ttl: TTL格式文件,可能包含词汇表的结构化定义,用于语义网或本体工具解析。 daqar.html:...
    packageimg
  • 澳大利亚土壤化学方法手册的机器可读表示数据集

    2025年12月22日 30 21 6

    数据集概述 本数据集是澳大利亚土壤化学方法手册的机器可读表示(资源描述框架RDF格式),包含土壤化学测试方法的词汇表(两个概念方案),数据转换自1992年和2011年的土壤化学方法出版物,涵盖结果代码、度量单位及方法间关系等内容。 文件详解 文件名称:ANZSoilData/def-au-scm-v1.0.0.zip 文件格式:ZIP压缩包...
    packageimg
  • 科辛语225词表数据集

    2025年12月20日 30 99 38

    数据集概述 该数据集为科辛语(Koshin)的225词表,科辛语属于也门-金比语组,通行于喀麦隆西北部Menchum区Fungom分区的下Fungom地区。数据包含语言词汇及声调、名词前缀特征,同时记录了两位顾问提供的词汇变体差异。 文件详解...
    packageimg
  • MontoloSHACLStats_Based_语义网SHACL约束统计完整数据

    2025年12月20日 30 163 79

    数据集概述 该数据集包含从GitHub及网络资源下载的SHACL形状语料库(raw-目录),以及使用montolo工具和Python脚本生成的约束使用统计数据(stats-目录),统计数据遵循montolo词汇表以RDF格式描述。 文件详解 文件名称: montolo-shape-stats.zip 文件格式: ZIP (.zip) 文件内容:...
    packageimg
  • 中国云南拉祜族黑拉祜语低音调代际差异数据集

    2025年12月19日 30 134 115

    数据集概述 本数据集为《中国云南拉祜族黑拉祜语低音调代际差异》研究的补充材料,包含黑拉祜语声调的声学测量数据、分析脚本及附录文档,支持语言声调变化的代际差异研究。 文件详解 附录文档: supplemental material appendices.pdf: PDF格式,包含研究相关的附录内容,如词汇表、图片书、交叉表、F0轨迹图和LME模型结果等。...
    packageimg
  • 尼泊尔部分语言词汇表数据集1973

    2025年12月19日 30 94 10

    数据集概述 该数据集是基于Hale 1973年《尼泊尔部分语言词汇表》衍生的CLDF格式数据集,包含尼泊尔特定语言的词汇信息,为语言研究提供结构化数据支持。 文件详解 文件名称:lexibank/halenepal-v4.0.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • LJ语音_国际音标对齐转录数据集

    2025年12月11日 30 150 97

    数据集概述 该数据集为LJ语音数据提供国际音标(IPA)对齐转录内容,包含文本网格文件、词汇表、音素时长分析图表、发音词典及结果复现脚本,支持语音处理相关研究与应用。 文件详解 grids.zip:压缩文件,包含所有音频对应的TextGrid文件,每个文件含三个层级: words层级:对齐的标准化英文单词...
    packageimg
  • 贝纳方言调查数据集2013

    2025年12月14日 30 176 32

    数据集概述 该数据集是基于2013年Mitterhofer的《贝纳方言调查》的CLDF格式数据集,聚焦贝纳方言词汇表分析,为研究贝纳方言提供结构化数据支持。 文件详解 文件名称:lexibank/mitterhoferbena-v3.1.zip 文件格式:ZIP压缩包...
    packageimg
  • 朴素贝叶斯情感分类器生成数据集2023

    2025年12月14日 30 117 108

    数据集概述 本数据集是通过朴素贝叶斯分类器算法运行生成的情感分析相关数据,包含词汇表中的单词及其出现次数、似然比等统计信息,以及对应的可视化图表,为情感分类模型的词汇特征分析提供支持。 文件详解 词汇统计文件(CSV格式):...
    packageimg
  • 印欧语系内部语言快速辐射补充材料数据集

    2025年12月13日 30 38 1

    数据集概述 本数据集是论文《印欧语系内部语言的快速辐射:印欧语词汇统计的先进方法》的补充材料,包含词汇表、语言学注释文档及系统发育树相关技术文件,支持实验可重复性。 文件详解 数据集包含3个文件,具体说明如下: - Kassian-et-al_2021_IE_phylogeny_Supplement-...
    packageimg
  • LaTeX数学公式图像匹配数据集230k

    2025年12月12日 30 121 41

    数据集概述 该数据集包含超过二十三万组LaTeX数学公式及其对应的PNG格式图像,图像分辨率为72dpi且尺寸各异。数据来源于arXiv的LaTeX源文件,经解析生成,是版本3更新后的数据集,规模从十八万扩展至二十三万。 文件详解 文件夹与文件: generated_png_images文件夹:包含所有PNG格式的数学公式图像文件...
    packageimg
  • 沃莱艾语词汇数据集

    2025年12月10日 30 187 103

    数据集概述 该数据集包含沃莱艾语(Woleaian)的处理后词汇数据,来源于一项持续的语言记录项目。沃莱艾语是密克罗尼西亚联邦雅浦州外岛居民使用的语言,数据集包含词汇表、图片及语音记录等文件,为沃莱艾语与英语的海洋文化词典编纂提供支持。 文件详解 该数据集包含3个文件,具体说明如下: - 压缩文件: -...
    packageimg
  • 螳螂形态学命名规范与实践手册补充材料10_腹部术语扩展词汇表

    2025年12月6日 30 59 8

    数据集概述 本数据集为螳螂形态学研究的补充材料,核心内容是螳螂目(Mantodea)腹部术语的扩展词汇表,用于规范形态学术语命名,支持螳螂分类学与形态学研究的术语统一与标准化。 文件详解 文件名称: oo_155296.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 芒加莱语与比马语词汇统计分析数据集

    2025年12月5日 30 195 91

    数据集概述 本数据集围绕芒加莱语与比马语的词汇统计分析展开,基于历史语言学比较研究框架,包含词汇表、数据可用性说明及数据库链接文档,为两种语言的历史比较研究提供基础资料。 文件详解 200 swadesh word list.pdf:PDF格式文件,包含200个斯瓦迪士核心词列表,为词汇统计分析提供基础词汇数据。 Data...
    packageimg
  • 藏语古典词性标注词汇表

    2025年12月4日 30 192 164

    数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Barayin_Lexicon_Based_2021_03_17_多语言词汇分析数据

    2025年12月4日 30 71 56

    数据集概述 本数据集为Barayin语词汇表,包含约一千九百个词汇,主要来自Jalkiya方言,偶含Giliya方言词汇及法语、阿拉伯语借词。词汇提供英语、法语、乍得阿拉伯语释义,数据未核查一致性,释义未必覆盖完整语义范围。 文件详解 数据集包含一个PDF格式的文档文件,具体如下: - 文件名称: Barayin lexicon...
    packageimg
  • 文本向量化词嵌入矩阵数据集_Text_Vectorization_Word_Embedding_Matrix

    2025年6月28日 30 168 105

    文本向量化词嵌入矩阵数据集_Text_Vectorization_Word_Embedding_Matrix 数据来源:互联网公开数据 标签:词嵌入, 文本向量化, 自然语言处理, 深度学习, 机器翻译, 文本分析, 词汇表, 嵌入矩阵 数据概述: 该数据集包含用于自然语言处理任务的词嵌入矩阵和词汇索引信息。主要特征如下:...
    packageimg
  • 蛋白质功能分析抽象嵌入与词汇表数据集2021-adarshr

    2025年5月31日 30 84 74

    蛋白质功能分析抽象嵌入与词汇表数据集2021-adarshr 数据来源:互联网公开数据 标签:蛋白质,功能分析,TF-IDF,词嵌入,词汇表,科学数据 数据概述: 本数据集名为“Abstract_embeds_final”,收录了蛋白质功能分析相关的研究抽象文本嵌入及词汇表信息。数据集中包含了蛋白质ID和对应的Go词汇表术语,用于构建TF-...
    packageimg
  • 自然语言处理词汇表与模型初始化数据集NaturalLanguageProcessingVocabularyandModelInitializationDa...

    2025年5月14日 30 190 7

    自然语言处理词汇表与模型初始化数据集NaturalLanguageProcessingVocabularyandModelInitializationDataset-alibaba19 数据来源:互联网公开数据 标签:自然语言处理, 词汇表, 预训练模型, 语言模型, 深度学习, 文本数据, 模型初始化, 词嵌入 数据概述:...
    packageimg