密文恶意流量智能分类研究综述
作者 刘紫萱 吴魏
发表于 2023年7月

摘要:随着加密流量技术的快速发展,越来越多网络攻击行为利用加密伪装逃脱检测。针对加密恶意流量检测问题,文章对现有的基于机器学习的密文恶意流量分类方法进行了梳理,讨论了这些方法的分类效果和优缺点,总结了现有方法的不足.为密文恶意流量智能分类技术的发展提供了一定的借鉴。

关键词:密文恶意流量分类;机器学习;加密伪装

中图法分类号:TP393 文献标识码:A

1 引言

近年来,学术界和工业界常用的恶意流量分类技术主要分为以下几种。一是使用端口号进行流量检测,这种方法比较简单,但是随着新的应用程序不断涌现,使用者可使用熟知端口号掩盖或使用非注册端口号,从而导致该方法检测性能显著下降。二是基于深度报文检测的恶意流量分类方法分类准确率高,但是特征提取难度大,且难以处理加密流量。这些传统的流量分类方法在加密流量广泛应用的情况下,检测性能受到了较大的影响。

随着机器学习的快速发展,出现了基于机器学习的恶意流量分类方法,其分类准确率较高且能够处理加密流量。目前,常用于恶意流量分类的机器学习算法有随机森林、k 近邻、决策树、逻辑回归等。

然而,这些基于机器学习的恶意流量分类方法对输入模型的特征有较大的依赖性,其性能优劣受到特征提取和特征工程的限制,从而影响了该类方法在实际场景下的适用性。针对上述恶意流量分类方法存在的不足,本文对现有的基于机器学习的密文恶意流量分类方法进行了梳理,讨论了不同方法的效果和优缺点,并总结了现有方法的不足。

2 基于机器学习的密文恶意流量分类

近年来,机器学习被广泛应用于多个领域,如计算机视觉、自然语言处理等。此外,研究人员在网络安全领域也将机器学习技术应用于网络流量分类等任务中,以达到实现自动化流量分类的目的。目前,常用于流量分类的机器学习算法有随机森林、k 近邻、决策树、逻辑回归算法等。下文将对使用上述算法实现密文恶意流量分类的文献进行总结和梳理。

2.1 基于随机森林的密文流量分类方法

在密文恶意流量分类研究中,随机森林(RandomForest)是常用的一种机器学习方法,在流量分类方面有比较具体的体现,而且它还可以用于流量特征的选择,可以选择出流量重要特征,以提高流量分类的准确率。

文献[1]对10 种基于机器学习的加密恶意流量检测算法进行了对比分析,包括随机森林、k 近邻、线性回归等算法,设计了一种基于机器学习的加密恶意流量检测技术的通用框架,同时对高频出现的特征进行总结,进一步优化了统计特征集(FOS 特征集),提出了基于随机森林算法和FOS 特征集组合的检测模型。

文献[2]针对加密恶意软件流量问题,在以文献标准特征集中22 个常见特征和专家专为加密网络会话定制的319 个增强特征为特征集的基础上,对比了用于加密恶意软件流量分类的6 种常见的机器学习算法,包括随机森林、决策树、支持向量机等算法,得出随机森林集成方法优于其他5 种算法。

为解决网络入侵检测中数据不平衡的多分类问题,周杰英等[3] 提出了一种融合随机森林模型进行特征转换、使用梯度提升决策树模型进行分类的入侵检测模型框架RF⁃GBDT,其具有预测精度较高、收敛速度较快以及泛化性能好的特点,可以较好地解决网络入侵检测中数据不平衡的多分类问题。

文献[4]针对高维数据限制算法泛化能力从而影响网络入侵检测能力的问题,提出了一种新的基于包装的特征选择算法,即禁忌搜索⁃随机森林(TS⁃RF),其中禁忌搜索进行特征搜索与选择,随机森林作为学习方法。该算法不仅提高了分类器精度,而且将特征空间减少了60%以上,降低了模型的计算复杂性。

本文刊登于《计算机应用文摘》2023年13期
龙源期刊网正版版权
更多文章来自
订阅