IEEE-CIS过程发现竞赛2016业务流程数据集
数据来源:互联网公开数据
标签:过程发现,业务流程,事件日志,训练集,测试集,模型评估,分类任务,过程挖掘
数据概述:
本数据集来自2016年IEEE-CIS过程发现竞赛,包含一个训练事件日志,该日志代表了10个不同的实时业务过程执行情况。训练事件日志用于发现过程模型,并通过两组测试事件日志进行交叉验证,每组测试日志包含20个跟踪记录(迹,trace),其中有10个跟踪记录是可以被模型重放的(允许的),另10个则是模型无法重放的(不允许的)。两组测试日志的总跟踪记录数为400个。数据集的目标是通过分类任务确定这400个跟踪记录,并提供训练模型的Petri网表示以及业务流程模型符号(BPMN)映射,以便对测试日志中的行为/跟踪进行测试和评估。
数据用途概述:
该数据集适用于过程发现技术的研究和评估,尤其适合用于业务流程建模、过程挖掘和模型优化。通过分析训练和测试事件日志,研究人员可以发现和改进过程模型,使其在“过拟合”和“欠拟合”之间达到良好的平衡。此外,该数据集还可以用于教育和培训,帮助学习者理解过程模型的构建和评估方法。
举例:
该数据集包含一个训练事件日志和两组测试事件日志。训练事件日志代表了10个不同的业务过程执行情况,测试事件日志则用于验证发现的过程模型。每一组测试事件日志包含20个跟踪记录,其中部分跟踪记录是可以被模型重放的,部分跟踪记录则不能。通过分类任务,模型能够准确地判断哪些跟踪记录是可以被重放的,哪些跟踪记录是不允许的。例如,给定一个跟踪记录t,表示实际过程行为,模型能够将其分类为允许或不允许。最终,过程挖掘方法正确地分类了原始过程模型中85.5%的跟踪记录。