找到4个数据集

标签: 计算语言学实验

过滤结果
  • 儿童与机器语言学习对比研究补充材料

    2025年12月15日 30 102 33

    数据集概述 本数据集为《儿童与机器语言学习:人类语言的逻辑结构能否释放大语言模型潜力?》一文的补充材料,包含对话转录、结构化数据、分析脚本及可视化结果,支撑人类语言学习逻辑结构与大语言模型训练差异的研究结论。 文件详解 该数据集包含7个文件,具体说明如下: - 文档类文件: -...
    packageimg
  • 古东斯拉夫宪章语料库补充材料1

    2025年12月13日 30 5 1

    数据集概述 该数据集为古东斯拉夫宪章语料库的补充材料1,包含12世纪末至14世纪上半叶来自斯摩棱斯克、波拉茨克和诺夫哥罗德的9份历史法律文本。文本经预处理、人工分词后整合为单字符串,同时附数据声明文档,支持基于语料库的语言距离测量与聚类分析。 文件详解 文本文件(.txt格式,共9个):...
    packageimg
  • 中古荷兰语音节划分词汇数据集

    2025年12月13日 30 176 75

    数据集概述 本数据集包含来自阿姆斯特丹自由大学Corpus Van Reenen-Mulder语料库的四万三千七百一十个中古荷兰语唯一词汇,采用短横线(-)作为音节分隔符。语料库源自1300至1400年间荷兰和佛兰德斯地区的两千五百份特许状,排除含缩写、附着词等特殊符号的词汇,为中古荷兰语音节结构研究提供基础数据。 文件详解...
    packageimg
  • 荷兰维基百科Palmetto位置存储Lucene索引数据集

    2025年12月11日 30 203 169

    数据集概述 本数据集是基于2015年11月2日荷兰维基百科数据生成的位置存储Lucene索引,用于配合Palmetto工具计算主题连贯性。包含索引文件、说明文档及案例研究报告,支持荷兰语资源的主题分析研究。 文件详解 文件名称: README.md 文件格式: Markdown (.md) 内容说明:...
    packageimg