数据集概述
本数据集为Frictionless Data的测试数据集,包含8个不同格式的文件,覆盖表格数据、JSON配置等类型,无目录结构,无训练/测试、数据/标签或原始/处理数据的拆分,用于验证多文件格式的兼容性和数据处理能力。
文件详解
- 数据文件
- 文件名称:table.xls、table.xlsx、table.ndjson、table.tsv、capitals.csv、table.jsonl、table.ods
- 文件格式:XLS、XLSX、NDJSON、TSV、CSV、JSONL、ODS
- 字段映射介绍:包含表格类数据,如capitals.csv有id(编号)、cid(国家编号)、name(首都名称)字段;table.tsv有id(编号)、name(名称)字段
- 配置文件
- 文件名称:datapackage.json
- 文件格式:JSON
- 字段映射介绍:包含type(对象类型)、keys(键列表:name、resources)等配置信息
适用场景
- 数据格式兼容性测试: 验证数据处理工具对XLS、XLSX、CSV、TSV、NDJSON、JSONL、ODS等多种格式的支持能力
- 数据标准验证: 基于datapackage.json配置文件,测试Frictionless Data标准的合规性
- 数据导入导出功能测试: 用于检验系统在不同格式数据之间转换的准确性
- 数据预览功能测试: 通过多种格式文件的预览,验证数据可视化工具的兼容性