数据集概述
本数据集包含ChatTS模型的两个评估数据集A和B,每个样本包含timeseries、question、answer、attributes和ability_types字段。为降低评估成本,同一时间序列的多个问题被合并为单个question,通过编号区分,实际问题数量可能多于时间序列条目数量。部分归纳推理与对齐任务被合并到同一问题中。
文件详解
- dataset_a.json
- 文件格式:JSON
- 字段映射介绍:包含
timeseries(时间序列数据)、question(合并后的问题,含多个子问题编号)、answer(文本格式标准答案,仅供参考)、attributes(用于结果评估的结构化标签)、ability_types(问题包含的任务类型)
- dataset_b.json
- 文件格式:JSON
- 字段映射介绍:字段结构与dataset_a.json一致,包含
timeseries、question、answer、attributes、ability_types字段
- README.md
- 文件格式:MD
- 内容介绍:数据集说明文档,包含数据集背景、字段解释、使用注意事项等信息
数据来源
数据集A的真实世界时间序列数据来自NAB、Weather、Oracle、AIOps四个第三方开源数据源;数据集B来源未明确说明;MCQ2数据集需从https://github.com/behavioral-data/TSandLanguage下载
适用场景
- ChatTS模型性能评估: 用于测试ChatTS模型在时间序列问答任务中的准确性和鲁棒性
- 时间序列问答任务研究: 分析不同类型问题(如归纳推理、对齐任务)的模型处理能力
- 评估方法优化: 探索合并多问题评估方式对模型性能评估结果的影响
- 时间序列与自然语言融合研究: 研究时间序列数据与自然语言问题的交互机制