解决方案:基于深度学习的加密流量识别研究综述及展望

优采云发布时间: 2022-11-30 23:41

　　在安全和隐私保护需求的驱动下，网络通信加密已成为不可阻挡的趋势。加密网络流量的爆发式增长给流量审计和网络空间治理带来了挑战。机器学习虽然解决了部分加密流量识别问题，但仍存在无法自动提取特征等局限性。深度学习可以自动提取更本质和有效的特征，并已被用于高精度识别加密流量。基于深度学习的加密流量识别相关研究工作，提出了基于深度学习的加密流量识别框架，并从数据集、特征构建、模型架构等方面回顾了部分研究工作，

　　0 前言

　　加密流量主要是指在通信过程中传输的经过加密的实际明文内容。在安全和隐私保护需求的驱动下，网络通信加密已成为不可阻挡的趋势。加密网络流量呈爆炸式增长，安全超文本传输协议 (HTTPS) 几乎已普及。然而，加密流量也对互联网安全构成了巨大威胁，尤其是当加密技术被用于网络*敏*感*词*时，如网络攻击、传播非法信息等。因此，加密流量的识别与检测是网络恶意行为检测中的一项关键技术，对维护网络空间安全具有重要意义。

　　随着流量加密和混淆方式的不断升级，加密流量分类识别技术也逐渐演进，主要分为基于端口、基于负载和基于流的方法。

　　基于端口的分类方法通过假定大多数应用程序使用默认传输控制协议 (TCP) 或用户数据报协议 (UDP) 端口号来推断服务或应用程序的类型。但是，端口伪装、随机端口和隧道等方法使这种方法很快失效。基于负载的方法，即深度包检测（DPI）技术，需要匹配数据包的内容，无法处理加密流量。基于流的方法通常依赖统计特征或时间序列特征，并使用机器学习算法，如支持向量机、决策树、随机森林等算法进行建模和识别。此外，高斯混合模型等统计模型用于识别和分类加密流量。

　　虽然机器学习方法可以解决许多基于端口和有效负载的方法无法解决的问题，但仍然存在一些局限性：（1）不能自动提取和选择特征，需要依赖领域专家的经验，导致机器学习在加密流量中的应用在分类上存在很大的不确定性；(2) 特征容易失效，需要不断更新。与大多数传统的机器学习算法不同，深度学习可以在无需人工干预的情况下提取更本质、更有效的检测特征。因此，近期*敏*感*词*的研究工作开始探索深度学习在加密流量检测领域的应用。

　　本文在现有研究工作的基础上，提出了一种基于深度学习的加密流量分类通用框架，主要包括数据预处理、特征构建、模型和算法选择。本文其余部分安排如下：第1节介绍加密流量识别的定义；第 2 节提出了基于深度学习的加密流量分类的通用框架；第 3 节讨论了加密流量分类研究中一些值得注意的问题和挑战；第 4 节总结了全文。

　　1 加密流量标识的定义

　　1.1 识别目的

　　加密流量识别类型是指识别结果的输出形式。根据加密流量识别的应用需求，确定识别类型。加密流量可以根据协议、应用、服务等属性逐步细化和识别，最终实现协议识别、应用识别、异常流量识别、内容本质识别。

　　1.1.1 识别加密流量

　　加密流量识别的首要任务是区分加密流量和未加密流量。在识别出加密流量后，可以使用不同的策略对加密流量进行微调。

　　1.1.2 识别加密协议

　　加密协议（如TLS、SSH、IPSec）的识别可用于网络资源的调度、规划和分配，也可用于入侵检测和恶意网络行为检测。由于各个协议的定义不同，需要在协议交互过程中挖掘差异性强的特征和规则，以提高加密流量识别的准确性。

　　1.1.3 识别加密应用

　　加密应用识别是指识别加密流量所属的应用类型，如Facebook、Youtube、Skype等，不仅可以用于网络资源的精准调度，还可以用于识别暗网应用（如 Tor、Zeronet），从而提高网络空间治理能力。

　　1.1.4 识别恶意加密流量

　　恶意加密流量是指采用加密方式传输的恶意网络流量，如勒索软件、恶意软件等。识别恶意加密流量可用于入侵检测、恶意软件检测和僵尸网络检测。

　　1.1.5 识别加密流量内容

　　加密流量内容识别是指识别加密流量携带的内容，如图片、视频、音频、网页、文件类型等。识别加密流量内容可用于网络空间安全治理。

　　1.2 识别性能

　　目前，网络加密流量的识别方法大多采用与准确率相关的指标进行评价，主要有误报率、准确率、召回率和综合准确率。

　　假设有N种加密流量，即N为分类类别数；定义图片为实际类型i被识别为类型i的样本数量；将图片定义为实际类型 i 被误识别为类型 j 编号的样本。

　　类型 i 的误报率为：

　　类型 i 的准确度为：

　　类型 i 的召回是：

　　整体准确度为：

" />

　　1.3 加密流量数据集

　　在使用深度学习对加密流量进行分类时，需要选择一个*敏*感*词*的、均衡的、有代表性的数据集。目前，加密流量数据集主要包括公开数据集和原创

数据。

　　1.3.1 公共数据集的选择

　　近年来，加密流量识别研究大多选择公开的数据集，如ISCX2012、Moore、USTC-TFC2016、IMTD17等，但公开的加密流量数据集数量较少，单一的数据集能够准确、准确地识别加密流量。缺乏全面表征所有加密流量类型的方法。主要原因是：流量种类多、量大、应用更新频繁，没有一个数据集可以收录

所有类型的加密流量；难以覆盖宽带和无线接入、PC和移动设备接入等所有网络场景。

　　1.3.2 原创

数据

" target="_blank">采集

　　文献[11-12]通过数据包采集

工具从研究实验室网络或运营商处采集

原创

流量数据，但大部分原创

数据集是不公开的。

　　2 深度学习加密流量识别框架

　　本文提供了基于深度学习的加密流量识别的通用框架，并简要介绍了一些常用深度学习方法的最新论文。整体框架如图1所示，包括数据预处理、特征构建以及深度学习模型架构设计、训练和识别。等待过程。

　　图1 基于深度学习的加密流量识别总体框架

　　2.1 数据预处理

　　原创

加密流量数据集可分为三种类型：原创

数据包数据集、流量pcap文件和处理后的统计特征。在用于加密流量识别的深度学习框架中，常见的数据预处理操作包括数据包过滤或报头去除、数据包填充和截断以及数据归一化。

　　2.1.1 包过滤或报头去除

　　由于原创

数据包数据集可能收录

地址解析协议（Address Resolution Protocol，ARP）、动态主机配置协议（Dynamic Host Configuration Protocol，DHCP）、互联网控制消息协议（Internet Control Message Protocol，ICMP）等流量，而pcap 文件收录

pcap 文件的头等信息。通常这两类数据都需要进行预处理，比如包过滤，去包头等。

　　2.1.2 数据包填充和截断

　　由于深度神经网络（Deep Neural Networks，DNN）总是被馈送固定大小的输入，而数据包的帧长从54到1 514变化很大，比如传输控制协议（Transmission Control Protocol，TCP）协议，有必要对数据包进行固定长度的零填充和截断。

　　2.1.3 数据归一化

　　数据规范化对于深度学习的性能至关重要。通过将统计特征数据集中的流数据归一化为[-1,+1]或[0,1]范围内的值，有助于分类任务在模型训练时更快收敛。

　　2.2 特征提取

　　深度学习模型的输入对模型在训练和测试时的性能有很大的影响，不仅直接影响模型的精度，还会影响计算复杂度和空间复杂度。在现有研究中，基于深度学习的加密流量分类模型的输入一般可分为三种类型：原创

数据包数据、流量特征、原创

数据与流量特征的结合。

　　2.2.1 原创

包数据

　　深度学习可以自动提取特征，因此大多数基于深度学习的加密流量分类算法都是将经过数据预处理后的原创

报文数据作为模型的输入。

　　2.2.2 交通特征

　　加密流量的一般流量特征可以分为包级特征、会话特征和统计特征。其中：包级特征包括源端口和目的端口、包长度、到达时间间隔、负载字节、TCP窗口大小和流向等；会话特征包括接收和发送的数据包数量、会话持续时间和会话负载；统计特征包括平均数据包长度、平均延迟间隔和平均上下行数据比率。在[12]中，数据包级、流级特征和统计特征都被用作模型的输入。文献[15]对三种常用的Tor流量混淆插件（Obfs3、Obfs4、ScrambleSuit）进行了研究，旨在挖掘可用的混淆插件Tor流量识别方法。本文使用的方法都是机器学习方法，包括C4.5、SVM、Adaboost、随机森林等。使用的流特征包括几个前向和后向数据包大小统计特征，例如前向字节总数。实验结果证明，仅利用每个流的前10-50个数据包的信息就可以实现对上述流量的快速检测。同时，一些研究表明，第一个数据包的数量对分类器影响很大，尤其是实时分类性能。采集

到的第一个数据包越多，流量特征就越完整和全面。本文使用的方法都是机器学习方法，包括C4.5、SVM、Adaboost、随机森林等。使用的流特征包括几个前向和后向数据包大小统计特征，例如前向字节总数。实验结果证明，仅利用每个流的前10-50个数据包的信息就可以实现对上述流量的快速检测。同时，一些研究表明，第一个数据包的数量对分类器影响很大，尤其是实时分类性能。采集

到的第一个数据包越多，流量特征就越完整和全面。使用的流特征包括几个前向和后向数据包大小统计特征，例如前向字节总数。实验结果证明，仅利用每个流的前10-50个数据包的信息就可以实现对上述流量的快速检测。同时，一些研究表明，第一个数据包的数量对分类器影响很大，尤其是实时分类性能。采集

到的第一个数据包越多，流量特征就越完整和全面。一些研究表明，第一个数据包的数量对分类器有很大的影响，尤其是实时分类性能。采集

到的第一个数据包越多，流量特征就越完整和全面。

　　2.2.3 原创

数据与交通特征的结合

　　童等。结合原创

数据包数据和从网络流量中提取的特征，根据新型加密协议 QUIC 对谷歌应用程序进行分类。

　　2.3 模型架构

　　2.3.1 多层感知器

　　由于多层感知器（MLP）的复杂性和准确性低，研究人员很少将MLP用于识别加密流量领域。文献[18]将各种深度学习算法与基于不同加密流量数据集的随机森林（RF）进行了比较。结果表明，大多数深度学习方法优于随机森林，但 MLP 性能低于 RF。. 但文献[18]指出，由于RF、MLP等深度学习方法的输入特性不同，实验结果不应作为MLP、RF等方法的综合比较结论。

　　文献[19]介绍了一种基于深度学习的加密流量分类方法DataNet，其中MLP模型由1个输入层、2个隐藏层和1个输出层组成，使用ISCX2012的VPN-nonVPN流量数据集进行实验。实验评价结果表明，其准确率和召回率均达到92%以上。

　　2.3.2 卷积神经网络

　　卷积神经网络 (CNN) 可以使用卷积层来改善 MLP 无法处理高维输入的限制，并使用卷积和池化来减少模型参数，如图 2 所示。

" />

　　图 2 卷积神经网络

　　文献 [14] 用一维向量表示每个流或会话来训练 CNN 模型。结果表明，该 CNN 的准确性优于使用时间序列和统计特征的 C4.5 方法。文献[17]将时间序列数据转化为二维图像，使用2个卷积层、2个池化层和3个全连接层的CNN进行训练。结果表明，[14] 中提出的 CNN 模型在协议和应用分类方面优于经典机器学习方法和 MLP。

　　2.3.3 循环神经网络

　　循环神经网络（RNN）可以有效处理序列问题，对之前的数据序列有一定的记忆。结构如图3所示。文献[12]提出在加密流量识别领域，混合模型会优于单一的长短期记忆网络（Long Short-Term Memory，LSTM）或CNN模型。文献[12]同时使用 CNN 和 RNN 来捕捉流的空间和时间特征。刘等人。使用基于注意力的双向 GRU 网络 (BGRUA) 来识别 HTTPS 封装的 Web 流量。在本文中，一个三部分神经网络被用于充分的加密流量识别。第 1 部分是一个双层 BGRU 网络，用于从输入流序列中学习序列隐藏状态。第二部分是注意力层，它将隐藏状态序列转换为带有注意力权重参数的隐藏状态序列，然后通过前向神经网络将其转换为预测标签。第三部分是迁移学习网络，实现前两部分学习结果的场景扩展。除了证明模型在性能上的优越性外，实验结果还展示了迁移学习加速新场景训练的能力。

　　图3 RNN结构

　　2.3.4 自编码器

　　自编码器（Auto-Encoder，AE）是一种无监督的神经网络模型，可以学习输入数据的隐藏特征。文献 [21] 使用 AE 重构输入并将 softmax 层应用于自动编码器的编码内部表示。文献[22]使用payload数据训练一维CNN和stacked AE模型，如图4所示。两种模型都表现出较高的精度，CNN模型略优于stacked AE模型。

　　图4Deep Packet框架

　　3 挑战与展望

　　本节讨论加密流量识别的挑战和未来方向。

　　3.1 存在的挑战

　　3.1.1 新加密协议的出现

　　随着新的加密协议的出现和普及，比如TLS1.3协议，数据包中只有少数字段没有加密，证书和域名信息都会被加密。在基于TLS1.2的握手过程中，部分明文字段的加密流量识别算法会失效。

　　3.1.2 加密流量的标注

　　深度学习在训练过程中需要大量的标记数据。然而，由于深度包分析工具等隐私保护和流量标注工具无法处理加密流量，因此很难在短时间内、低成本地合法采集

并准确标注加密流量数据集。

　　3.1.3 加密流量分布

　　在真实的网络环境中，类不平衡也是加密流量分类的一个重要问题，它会直接影响分类的准确性。

　　3.2 未来可能的方向

　　3.2.1 预训练模型

　　无标签交通数据量大且相对容易获取，因此一些研究者开始探索如何利用容易获取的无标签交通数据结合少量有标签的交通数据进行准确的流量分类。它允许您使用大量未标记的流量数据预训练模型，将其转移到新架构，并使用深度学习重新训练模型。此外，预训练可用于降维，使模型轻量化。

　　3.2.2 生成对抗网络

　　生成模型可用于处理网络流量分类中的数据集不平衡问题。不平衡问题是指每个类的样本数量差异很大的场景，而处理不平衡数据集最常见和最简单的方法是通过从少数类中复制样本来进行过采样，或者通过删除一些欠采样的样本。在文献[24]中，生成对抗网络（GAN）用于生成合成样本来处理不平衡问题，通过使用辅助分类器生成对抗网络（AC-GAN）生成二类网络，使用具有2的公共数据集类（SSH 和非 SSH）和 22 个输入统计信息。

　　3.2.3 迁移学习

　　迁移学习假设源任务和目标任务的输入分布相似，允许在源任务上训练的模型用于不同的目标任务。由于模型已经过训练，因此再训练过程需要的标记数据和训练时间要少得多。在网络加密流量识别场景中，可以使用公开的加密数据集对模型进行预训练，进一步调优模型后，可以用于另一个标签样本较少的加密流量分类任务。参考文献 [23] 使用这种方法将预训练的 CNN 模型的权重转移到经过训练以对 Google 应用程序进行分类的新模型。该论文还表明，预训练模型仍可用于在不相关的公共数据集上进行迁移学习。

　　4 结语

　　网络流量是网络通信的必然产物，流量收录

通信双方在通信过程中的各种关键信息，因此加密流量分析是网络态势感知的重要方面。各种研究和实践证明，加密流量中收录

的信息可以在一定程度上得到有效挖掘，为网络管理和运营决策提供高质量的证据支持。因此，加密流量分析是提高网络态势感知的关键因素之一，具有极高的科研、应用、民生和安全意义。

　　本文提出了基于深度学习的加密流量分类的通用框架，并从分类任务定义、数据准备、特征构建、模型输入设计和模型架构等方面回顾了现有的最新工作。此外，本文还讨论了加密流量识别存在的问题以及未来可能的识别技术。

　　分享文章:seo[]2、外部优化，外链为皇（2）外链运营：每天添加一定

　　搜索引擎优化[]

　　概述

　　SEO是英文SearchEngineOptimization的缩写，中文意译为“搜索引擎优化”。SEO是通过站内优化和站外优化，使网站满足搜索引擎收录和排名要求，提高关键词在搜索引擎中的排名。

　　一、定义

　　SEO是指在了解搜索引擎自然排名机制的基础上，对网站进行内外调整和优化，提高网站关键词在搜索引擎中的自然排名，获得更多的展示量，以及吸引更多目标客户点击访问网站，从而达到网络营销和品牌建设的目的。搜索引擎的检索原理是不断变化的，检索原理的变化会直接导致网站关键词在搜索引擎上排名的变化，所以搜索引擎优化不是一劳永逸的。简单来说，SEO就是通过一定的方法在网站内外发布文章、交换链接等，最终达到一定的关键词，从而在搜索引擎上获得好的排名。

　　二、主要工作

　　1.内部优化，内容为王

　　现在的互联网缺的不是产品，而是会卖产品的人。如果你想在互联网上销售你的产品，你必须使用SEO技术，它可以为你的产品带来大量的精准流量。为了避免让大家学到错误和过时的知识，如果你想做一个伟大的微商，你可以加入，但如果你看热闹，就不必了。

　　(1)优化：例如：优化TITLE、KEYWORDS、DESCRIPTION等。

　　（2）内部链接优化，包括关联链接（Tag标签）、锚文本链接、导航链接、图片链接。

　　(3) 网站内容更新：保持网站每天更新（主要是文章的更新等）。

　　2.外部优化，外链为王

　　(1)外部链接类型：博客、论坛、B2B、新闻、分类信息、贴吧、知乎、百科、相关信息网等，尽量保持链接的多样性。

　　(2)外链运营：每天添加一定数量的外链，使关键词的排名稳步提升。

　　(3) 外链选择：与自己网站相关度高、整体质量好的网站交换友情链接，以巩固和稳定关键词排名。

　　3.搜索引擎优化工具

　　将站点地图创建为文本

　　谷歌关键字工具

　　Xenu——死链接检测工具

　　百度站长平台注册与使用

　　百度统计的注册与使用

　　SEO数据查询工具

　　关于 XML 站点地图的问题

" />

　　百度指数

　　谷歌网站流量统计

　　提交站点地图站点地图到百度

　　谷歌站长工具

　　4.搜索引擎优化服务

　　1.SEO优化公司。专门为别人优化网站，一个公司可能有成百上千个网站同时优化，优化公司有大有小。但是在2012年8月算法大更新之后，因为使用了一些作弊手段，很多优化公司倒闭了，而且在算法更新之后，这些作弊网站的排名都消失了，甚至被K了。

　　2.优化订单。它适合SEO个人。他们白天除了上班，平时还会接到一些网站优化订单，赚点零钱。

　　3、项目合作。SEOer对产品站点进行排名，然后通过销售产品获得佣金。很多SEO人员特别喜欢和机械行业合作，因为赚取的利润非常高。

　　4.SEO顾问。高级SEO人员不会再自己给别人做优化，通常是作为向导告诉他们服务的公司的员工如何做优化。

　　5.SEO培训。专门教学生如何做优化，包括理论和实践，例如 SEO Research Center

　　6. 出售网站。提升网站的关键词排名，卖给有需要的公司和个人。

　　五、发展历程

　　2000年，出现了按点击付费的搜索引擎广告模式（简称PPC）。

　　2001年部分目录（中文）开始收费注册，每个网站每年要交几百到几千元不等的费用。

　　2002年，中国人陆续涉足SEO领域。

　　2003 年，出现了基于内容定位的搜索引擎广告（Google AdSense）。

　　2004年，中国潜伏的SEO开始浮出水面，SEO团队逐渐壮大。SEO市场一片混乱，经营不规范，恶性竞争。SEO优化大多采用个人作坊式操作，公司操作的较少。SEO培训市场诞生了。

　　2006年，随着网络市场竞争的激烈，企业对网络公司和网络产品的行为有了新的认识，企业开始理性对待网络营销市场。随着百度竞价的盛行，企业也意识到了搜索引擎的重要性，同时诞生了很多SEO服务公司。

　　2007年，随着SEO信息的普及和互联网公司技术的提高，一些公司推出了按效果付费的SEO服务项目，从网站建设，到关键词定位，再到搜索引擎优化。启动并实施SEM网络营销计划。

　　2008年，随着SEO服务公司的技术和理念逐渐成熟，一些公司推出了网站策划服务。服务以建设高效网站（更注重网站用户体验）和网站用户转化率为目标，更注重营销效果。

　　2009年，SEO进入白炽化发展阶段。无论是个人、团队、公司还是培训机构，都在大力推广和使用SEO技术来运营网站，让网站的关键词更快的获得排名和收录。

　　2012年，SEO行业进入调整期，原有的服务模式已经难以实现共赢，不少企业裁员，部分企业开始寻求新的服务模式。

　　2012年2月15日，百度搜索SEO相关术语时，“百度提醒您：不要轻信SEO公司的用词和案例，不当的SEO可能会给您的网站带来风险，建议广大站长携带为自己的网站出SEO。在此之前，请参考百度官网优化指南。” 此举被认为是百度打击SEO的重要举措。

　　2012年3月8日搜索SEO相关词时，“百度提示：SEO是一项很重要的工作，请参考百度对SEO的建议”。此举被认为是百度迫于压力做出的一种妥协，可以规避同类行业垄断行为，承认SEO的存在，变相打压SEO的发展。

" />

　　2012年5月，百度推出百度站长平台。站长平台发布了《Web2.0反垃圾详细指南》和《名站Seo注意事项》，为网站的合理优化，远离作弊提出了一些宝贵的建议。

　　2012年6月，百度更新反作弊策略，大面积网站被K。百度声称“针对低质量网站的措施已经生效”，导致站长联合发起*敏*感*词*点击百度竞价活动！其中，因为这件事，直接受害且受害最大的就是医标。

　　2012年10月23日，百度反作弊算法升级，严厉打击网站超链接作弊手段和买卖链接行为。但根据实际调查发现，此次升级导致实际参与作弊的站点被K'ed的现象非常少。

　　2012年11月至12月，百度站长平台推出一系列站长工具（搜索关键词、百度索引量、外链分析、网站改版等），第三方站长工具受到强烈冲击。

　　2013年2月19日，百度推出露罗算法打击各类超链接中介。

　　2013年3月19日，拒绝外链工具内测版全面开放使用。

　　2013年4月25日，《浅谈外链判断》一文在站长社区发表，引起了SEO界的密切关注。

　　2013年5月17日下午，百度网络搜索反作弊团队在百度站长平台上发布公告称，新算法“石榴算法”将于一周后正式上线。新算法初期，我们将重点*敏*感*词*含有大量恶意广告，阻碍用户正常浏览的页面，尤其是那些弹出大量低质量弹窗广告，混淆视听的垃圾广告页面。页面的主要内容。

　　2013年7月1日，百度绿萝算法2.0更新公告，加大对软文外链的过滤力度，加大对目标站点的惩罚力度，适当惩罚发布软文的站点，降低其在搜索引擎中的排名。评测，同时为百度新闻源站清除其新闻源。

　　2013年7月19日，百度网络搜索反作弊小组发布声明，打击大量高价获取二级域名或目录的行为，其中大部分用于作弊。严惩，全站牵连，百度新闻源直接封杀清理。

　　六、优化思路

　　1.网页标题优化

　　2.关键词的选择

　　3. 关键词（关键词）优化

　　4.元标签和网页描述的优化

　　5.网站结构和URL优化

　　6. SEO中的正则表达式

　　7. 让搜索引擎跟随你的意图

　　8.网页链接优化

　　9.标题标签优化

　　10.图片（alt）优化

　　11、网页减肥

　　12. 建立一个 SEO 友好的网站。

　　参考资料：互动百科百度百科

0

2022-11-30

采集自动组合

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:基于深度学习的加密流量识别研究综述及展望

0 个评论

发起人