log_datasets_Based_日志记录自动解析论文数据集_2021

数据集概述

本数据集为论文《On Automatic Parsing of Log Records》(Section 3.3)配套数据,以压缩包形式提供。数据包含需解析的日志字符串及对应字符级字段名标注,每条记录为日志字符串与“翻译”结果的二元组,用于支持日志记录自动解析研究。

文件详解

  • 文件名称:log_datasets.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含论文提及的各子数据集文件(如T_E.txt对应TE数据集);单个文件中每条日志记录以换行分隔,每行含制表符分隔的二元组:第一元素为待解析的原始日志字符串,第二元素为该字符串每个字符对应的字段名标注。

数据来源

论文“On Automatic Parsing of Log Records”(CoRR, abs/2102.06320, 2021)

适用场景

  • 日志解析模型训练: 用于开发和优化自动识别日志字符串中结构化字段的算法模型。
  • 自然语言处理任务研究: 支持字符级序列标注、半结构化文本解析等NLP方向的实验验证。
  • 日志分析工具开发: 为日志管理系统中的自动字段提取功能提供标注数据支撑。
  • 论文成果复现: 辅助研究者复现《On Automatic Parsing of Log Records》中的实验结果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 55.73 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。