数据集概述
本数据集为语义地址匹配研究提供支持,包含训练、开发和测试三个子集,每个子集均包含原始地址对、地址元素的索引表示及匹配标签,数据来源于相关学术论文研究。
文件详解
该数据集包含多个文本文件,具体说明如下:
- 训练数据集文件:
- train.txt:训练数据集,格式为文本文件
- train_code_a.txt:训练集中Sa地址元素的索引表示文件,格式为文本文件
- train_code_b.txt:训练集中Sb地址元素的索引表示文件,格式为文本文件
- train_lable.txt:训练集中地址对的标签文件,格式为文本文件
- 开发数据集文件:
- dev.txt:开发数据集,格式为文本文件
- dev_code_a.txt:开发集中Sa地址元素的索引表示文件,格式为文本文件
- dev_code_b.txt:开发集中Sb地址元素的索引表示文件,格式为文本文件
- dev_lable.txt:开发集中地址对的标签文件,格式为文本文件
- 测试数据集文件:
- test.txt:测试数据集,格式为文本文件
- test_code_a.txt:测试集中Sa地址元素的索引表示文件,格式为文本文件
- test_code_b.txt:测试集中Sb地址元素的索引表示文件,格式为文本文件
- test_lable.txt:测试集中地址对的标签文件,格式为文本文件
数据来源
Lin, Y., Kang, M., Wu, Y., Du, Q. and Liu, T. (2019) 发表于International Journal of Geographical Information Science的学术论文
适用场景
- 地址匹配算法研究:用于深度学习模型训练与测试
- 地理信息系统优化:提升地址标准化与匹配精度
- 自然语言处理应用:探索地址文本语义表示方法
- 学术研究复现:支持相关论文实验结果的验证与扩展