荷兰维基百科Palmetto位置存储Lucene索引数据集

数据集概述

本数据集是基于2015年11月2日荷兰维基百科数据生成的位置存储Lucene索引,用于配合Palmetto工具计算主题连贯性。包含索引文件、说明文档及案例研究报告,支持荷兰语资源的主题分析研究。

文件详解

  • 文件名称: README.md
  • 文件格式: Markdown (.md)
  • 内容说明: 数据集使用说明文档,包含索引生成背景、预处理步骤(如词形还原、停用词处理)及Palmetto工具的使用指引。
  • 文件名称: nlwiki-palmetto.tar.gz
  • 文件格式: 压缩包 (.tar.gz)
  • 内容说明: 荷兰维基百科的位置存储Lucene索引文件,用于主题连贯性计算的核心数据资源。
  • 文件名称: case_study.pdf
  • 文件格式: PDF (.pdf)
  • 内容说明: 案例研究报告,结果显示NPMI是荷兰名词主题的最佳主题连贯性度量方法。

数据来源

Netherlands eScience Center Dilipad project

适用场景

  • 自然语言处理研究: 用于荷兰语文本的主题连贯性评估方法验证与优化。
  • 信息检索实验: 支持基于维基百科语料的主题模型性能分析。
  • 计算语言学应用: 为荷兰语资源的主题提取与质量评估提供基础数据。
  • 学术研究复现: 可复现关于主题连贯性度量的相关研究结果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 627.83 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。