NSDGen生成噪声人名聚类算法测试数据集

数据集概述

本数据集包含30个CSV文件,专门用于评估聚类算法在模糊姓名匹配、记录链接和权威控制等场景下的性能。数据通过NSDGen噪声字符串生成工具创建,模拟真实世界中姓名字符串常见的拼写错误,如字符插入、删除、替换和调换等。每个数据集通过引入QWERTY键盘距离图来生成噪声,将原始精确副本转换为具有观察值的分组数据。

文件详解

  • 数据文件(Data files)
  • 文件名称: 遵循D[编号].csv模式(例如:D1.csv, D14.csv, D19.csv等)
  • 文件格式: CSV
  • 字段映射介绍: 每个CSV文件包含模拟的人名字符串数据,其中相同的原始姓名通过引入噪声(如字符错误)生成了多个变体。数据内容示例如"David Toledo Delgado"、"Juan Carlos Aramburu Flores"等姓名及其噪声版本。

数据来源

NSDGen(Noisy String Data Generator)工具

适用场景

  • 聚类算法评估: 用于测试和比较不同聚类算法在处理含噪声字符串数据时的性能和鲁棒性。
  • 模糊姓名匹配: 模拟真实场景下的姓名拼写错误,评估字符串相似度匹配算法的准确性。
  • 记录链接与数据清洗: 在数据集成和清洗过程中,测试如何正确链接来自不同来源的含有噪声的姓名记录。
  • 权威控制文件测试: 评估图书馆和信息系统中姓名权威控制流程的有效性。
  • 键盘距离模型研究: 基于QWERTY键盘布局的字符距离模型,研究噪声引入机制对字符串匹配的影响。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.03 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。