数据集概述
本数据集为论文《On Automatic Parsing of Log Records》(Section 3.3)配套数据,以压缩包形式提供。数据包含需解析的日志字符串及对应字符级字段名标注,每条记录为日志字符串与“翻译”结果的二元组,用于支持日志记录自动解析研究。
文件详解
- 文件名称:log_datasets.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含论文提及的各子数据集文件(如T_E.txt对应TE数据集);单个文件中每条日志记录以换行分隔,每行含制表符分隔的二元组:第一元素为待解析的原始日志字符串,第二元素为该字符串每个字符对应的字段名标注。
数据来源
论文“On Automatic Parsing of Log Records”(CoRR, abs/2102.06320, 2021)
适用场景
- 日志解析模型训练: 用于开发和优化自动识别日志字符串中结构化字段的算法模型。
- 自然语言处理任务研究: 支持字符级序列标注、半结构化文本解析等NLP方向的实验验证。
- 日志分析工具开发: 为日志管理系统中的自动字段提取功能提供标注数据支撑。
- 论文成果复现: 辅助研究者复现《On Automatic Parsing of Log Records》中的实验结果。