解决方案:CMS文章采集器实现网站稳步收录

优采云 发布时间: 2022-11-20 03:08

  解决方案:CMS文章采集器实现网站稳步收录

  在我们的SEO优化过程中,收录度往往会影响网站的权重和关键词排名,一般来说,网站收录度也是衡量网站质量的关键因素,那么我们如何才能保证网站有较高的收录性,这里博主根据一些注意事项给大家简单做一个介绍,如下:

  1. 服务器选择

  网站服务器影响SEO优化效果的问题已经说过很多次了,但即便如此,很多人还是没有足够重视这一点,一台稳定的服务器,不仅可以提升用户体验,还可以帮助搜索引擎收录,所以我们在选择服务器的时候,从实用性出发,根据实际需要选择空间的大小;从安全的角度来看,我们需要选择正规的服务器,保证稳定性和速度,同时防止网站被黑客入侵。

  2. 灵活优化

  当搜索

  引擎发现我们网页的质量低下,采取的措施往往是提高收录要求,减少我们网站的收录率,如果这种情况持续很长时间,这可以说是搜索引擎对我们的一个警示,一定要及时的数据分析,无论是加强关键词密度,还是利用文章采集

器采集

高质量的文章进行排序, 等,根据实际情况来优化或调整我们现有的方法。

  

" />

  3.不容易修改

  在大多数情况下,网站会在运营期间进行修订会造成网站收录

  数量大大减少,还可能存在死链接,为了保证网站收录,在大多数情况下不建议修改。有时网站修订是最后的手段,现在我们已经下定决心要这样做,我们需要为最好的情况做好准备,为最坏的情况做好准备。做好404页的工作,以尽量减少我们的损失。

  4. 优质内容

  希望网站收录

更高、更高质量的内容

  (原创/伪原创)是不可或缺的,拥有高质量的网站内容是我们网站收录度提升的根本,如果我们网站上有很多高质量的内容那么百度蜘蛛也会很高兴,每天访问我们的网站抓取新鲜的文章,我们的网站收录也会有所提高,所以收录可以提高还是在网站内容的不断更新, 那么如何保持如此高的更新频率。

  文章采集器

不需要掌握专业技术,只需几个简单的步骤即可轻松完成征集、伪原创、翻译、出版、主动推送。用户

  

" />

  只需点击文章采集

器中的规则即可完成设置,完成后,系统会匹配内容和图片,并根据用户设置的关键词、采集

时间、是否伪原文、是否翻译、发布时间等自动进行文章聚合。

  文章采集

器的SEO功能全面,支持市面上大多数CMS,支持标题和内容插入关键词,替换图片本地化,实时监控网站进度,查看网站收录度和网站权重。

  5. 高质量的友谊链接

  友情链接的

  创建也更为重要,如果我们的友情链接权重相对较高,并且

  它本身的相关性比较高,对我们的网站收录也是很有帮助的,但是为了让排名等更好一定要做好对好友链接的“监控”,以免不良情况对网站造成影响。

  以上几点都是博主们认为不可忽视的,增加收录度,无论是原创还是利用文章采集器

采集

相关文章作为参考,都是为了提高网站的质量,让我们的网站排名更好,而对于我们的网站来说,后期的收获会更多。

  解决方案:大型互联网公司如何防止黑客入侵?这篇文章说透了

  “

  我如何知道我的业务是否受到损害?是没有人来“黑”,还是因为自身缺乏感知,暂时找不到?

  事实上,入侵检测是每个大型互联网企业都必须面对的严峻挑战。公司的价值越高,入侵的威胁就越大,即使是像雅虎这样的互联网创始人,在结束时(被收购)仍然遭受全面的数据盗窃。

  安全不是小事,一旦一家互联网公司被成功“黑客入侵”,后果将不堪设想。

  基于“攻防对抗”的

  考虑,本文就不提具体的入侵检测模型、算法和策略,那些想直接复制“入侵策略”的同学可能会失望。

  但我们会分享一些操作思路,请给同行建议,如果能帮助到后来者,那就更好了,欢迎与我们交流。

  入侵的定义

  典型入侵场景:黑客通过网络远距离远程控制目标的笔记本电脑/手机/服务器/网络设备,然后随意读取目标的私人数据,或使用目标系统上的功能,包括但不限于使用手机麦克风监控目标,使用*敏*感*词*监视目标, 利用目标设备的算力进行挖矿,利用目标设备的网络能力发起DDoS攻击,等等。或者破解服务的密码,进入查看敏感信息,并控制访问控制/交通信号灯。以上所有内容都属于经典入侵场景。

  我们可以定义入侵:即黑客未经授权控制和使用我们的资源(包括但不限于读写数据、执行命令、控制资源等)达到各种目的。

  从广义上讲,黑客利用SQL注入漏洞窃取数据,或在ISP中获取目标域名的账号密码,篡改DNS指向黑页,或找到目标社交账号,在微博/QQ/邮箱上对虚拟资产进行未经授权的控制,都属于入侵范畴。

  面向企业的入侵检测

  在大多数情况下,企业入侵检测的范围很窄:它通常是指黑客控制PC,系统,服务器和网络(包括办公室网络和生产网络)的行为。

  黑客控制PC和服务器等主机资产的最常见方式是通过shell执行指令,获取shell的操作称为GetShell。

  例如,通过 Web 服务的上传漏洞获取 WebShell,或者利用 RCE 漏洞直接执行命令/代码(RCE 环境变相提供 shell)。

  此外,通过以某种方式植入“木马后门”,然后直接利用木马的集成shell功能远程控制目标,这也是比较典型的。

  因此,入侵检测可以专注于 GetShell 的操作,因为

  以及 GetShell 成功后的恶意行为(为了扩大成功,黑客很可能会利用 shell 进行探测、翻找窃取、横向移动来攻击其他内部目标,这些区别于好人的特征也可以是重要的特征)。

  一些同行(包括商业产品)喜欢报告GetShell在GetShell之前的一些“外部扫描,攻击检测和尝试行为”,并称之为“态势感知”,告诉企业有人“试图攻击”。

  在笔者看来,实战价值并不大。包括美团在内的许多公司,基本上一直处于“未知”攻击之下。

  明知有人在“试图”攻击,如果不能有效行动,不能有效警示行动,除了消耗精力,没有多少实际价值。

  当我们习惯了“攻击”是常态时,我们就会解决这种常态下的问题,可以使用哪些强化策略,哪些可以实现正常操作,以及是否有任何策略无法规范化操作。

  比如很多人需要加班临时突袭看守,那么这种策略很可能在不久的将来会消失。我们是否采取这种策略之间没有本质区别。

  与SQL注入、XSS等不直接GetShell的Web攻击类似,暂时不考虑狭义的“入侵检测”,建议将其归入“漏洞”和“威胁感知”领域,单独讨论。

  当然,使用 SQL 注入、XSS 等门户进行 GetShell 操作,我们还是掌握了 GetShell 的关键点,并不在乎漏洞条目在哪里。“

  入侵”和“内鬼”

  接近入侵的一种情况是“内鬼”。入侵本身就是手段,GetShell只是起点,黑客GetShell的目标是以后控制和窃取数据。

  “内鬼”自然拥有合法获取敏感资产的合法权力,但出于工作以外的目的,他们非法处置这些资源,包括复制副本、转移泄漏和篡改数据以获取利润。

  内部行为

  幽灵不在“入侵检测”的范围内,一般是从内部风控的角度进行管理和审计,如责任分离、两人审计等。还有数据防漏产品(DLP)来辅助,这里就不详细讨论了。

  有时,黑客知道员工 A 可以访问目标资产,因此他们以 A 为目标,然后利用 A 的权限窃取数据,这也被定性为“入侵”。

  毕竟,A并不是主观上恶意的“内心幽灵”。如果在黑客A受到攻击的那一刻无法捕获,或者无法区分黑客控制的A窃取数据和正常员工A的访问数据,那么这种入侵检测也会失败。

  入侵检测的本质

  如前所述,入侵意味着黑客可以在未经我们同意的情况下操作我们的资产,并且对手段没有任何限制。

  所以如何找出入侵行为与合法正常行为的区别,并将其与合法行为区分开来,就是“入侵发现”。在算法模型上,这是一个标记问题(侵入式、非侵入式)。

  不幸的是,”

  黑色“的入侵样本尤其罕见,很难通过大量的标注数据和监督训练入侵检测模型来探出入侵规律。

  因此,入侵

  检测策略开发人员通常需要投入大量时间来完善更准确的表达模型,或者花费更多精力来构建“类似入侵”的模拟数据。

  一个典型的例子是,为了检测 WebShell,安全从业者可以去 GitHub 搜索一些公开可用的 WebShell 样本,大约有 1,000 个。

  而对于机器学习的数百万训练需求来说,这些数据是远远不够的。而且,GitHub上的这些样本集,从技术角度来看,单一技术方法生成的类似样本数量较多,也有一些反法样本缺失。

  因此,这样的训练,试图让AI通过“大量样本”掌握WebShell的特性并加以区分,原则上不太可能完美实现。

  此时,对已知样本进行技术分类并提炼更准确的表达模型被称为传统特征工程。

  传统的特征工程通常是

  被视为低效的重复性工作,但效果往往比较稳定,毕竟添加技术特性可以稳定地发现一种WebShell。

  大量恶意样本的构建,虽然有机器学习、AI等光环的加持,但在实际环境中往往很难成功:自动生成的样本很难描述WebShell的原意,大多描述了自动生成算法的特征。

  另一方面,入侵的区别在于行为本身是否“授权”,而行为本身是否被授权没有任何显著的区别特征。

  因此,在进行入侵对抗时,如果能够通过某种加固将合法访问收敛到有限的信道,并对信道进行强有力的区分,则可以大大降低入侵检测的成本。

  例如,访问源的严格认证,无论是自然人还是程序API,都需要拥有合法的票据。

  在发送*敏*感*词*时,针对不同情况进行多纬度认证和授权,然后使用IAM记录和监控其对这些工单的访问范围,并生成较低级别的Log,做异常访问模型感知。

  这种全生命周期的风控模式,也是谷歌BeyondCorp无国界网络实施的前提和基础。

  因此,入侵检测有两个主要思想:

  入侵检测和攻击媒介

  根据目标的不同,可能暴露给黑客的攻击面会有所不同,黑客可能会使用完全不同的入侵方法。

  例如,入侵

  我们的PC/笔记本电脑,以及部署在机房/云中的入侵服务器,有完全不同的攻击和防御方法。

  对于明确的“目标”,可以使用有限的一组通道和有限数量的路径来访问它。“攻击方式”+“目标攻击面”的组合称为“攻击向量”。因此,在

  谈到入侵检测模型的效果时,有必要在制作相应的检测模型之前,明确攻击向量并采集

不同攻击路径的相应日志(数据)。

  例如,基于 SSH 登录的 shell 命令数据集不能用于检测 WebShell 行为。

  根据网络流量采集

的数据,不可能知道黑客在SSH之后是否在shell环境中执行了任何命令。

  基于此,如果有企业不提具体场景,就说自己做了很好的APT感知模型,这显然是在“吹嘘”。

  因此,入侵检测首先要列出各种攻击媒介,并针对每个细分场景(HIDS+NIDS+WAF+RASP+应用层日志+系统日志+PC...)采集

数据,结合公司的实际数据特征,做出相应的检测模型,以适应公司的实际情况。

  不同公司的技术堆栈、数据规模和暴露的攻击面可能会对模型产生重大影响。

  例如,许多安全工作者特别擅长在PHP下进行WebShell检测,但对于Java公司来说......

  常见的入侵方法和响应

  

" />

  如果不了解黑客常见的黑客手段,就很难有针对性,有时甚至会落入“政治正确”的陷阱。例如,渗透测试团队说,我们做了一个 A 操作,你甚至没有找到它,所以你不能。

  现实情况是,场景可能不是一个完整的入侵链,即使没有找到动作,也可能对入侵检测效果没有影响。

  每个攻击媒介对公司造成的危害,如何对发生的概率进行排名,以及如何解决其成本和收益,都需要专业经验来提供支持和决策。

  现在简单介绍一下黑客教程中的经典流程(完整流程可以参考杀伤链模型):

  在入侵目标之前,黑客可能对目标的了解不够,所以第一件事往往是“踩到点子”,即采集

信息,加深理解。例如,

  黑客需要知道哪些资产是目标(域名、IP、服务),它们各自的状态是什么,是否存在已知的漏洞,谁管理它们(以及如何合法管理它们),存在哪些已知的泄漏(例如社工数据库中的密码等)。

  一旦踏步点完成,熟练的黑客会针对各种资产的特性,一一酝酿和验证“攻击向量”的可行性,下面列出了常见的攻击方法和防御建议。

  高风险服务入侵

  所有公共服务都是“高风险服务”,因为该协议或实现它的开源组件可能具有已知的攻击方法(高级攻击者甚至具有相应的0day)。

  只要你的价值足够高,黑客有足够的动力和资源去挖掘,当你把高风险的服务开放到互联网,向所有人开放的时候,就相当于为黑客打开了“大门”。

  例如,SSH、RDP等运维管理相关服务都是为管理员设计的,只要知道密码/密钥,任何人都可以登录服务器完成入侵。

  黑客可以通过猜测密码(结合社会工作数据库中的信息泄露,网盘检索或暴力破解)来获取凭据。

  事实上,因为这样的

  攻击太常见了,黑客早就做出了全自动的全Internet扫描蠕虫工具,如果在云上购买的主机设置了弱密码,往往会在几分钟内感染蠕虫,因为这样的自动化攻击者太多了。

  也许,您的密码设置得非常强,但这不是您可以继续将服务暴露给Internet的原因,我们应该将这些端口限制为仅允许我们自己的IP(或内部堡垒主机)访问,完全切断黑客通过它入侵我们的可能性。

  同样,MySQL、Redis、FTP、SMTP、MSSQL、Rsync等,所有用于管理服务器或数据库和文件的服务都不应该不受限制地向Internet开放。

  否则,基于蠕虫的攻击工具将在短短几分钟内破坏我们的服务,甚至直接加密我们的数据,甚至要求我们为敲诈勒索支付比特币。

  还有一些存在RCE漏洞(远程命令执行)的高风险服务,只要端口打开,黑客就可以利用现成的exp直接GetShell完成入侵。

  防御建议:每个高风险服务的入侵检测成本都很高,因为对高风险服务的具体引用很多,可能没有通用特征。

  因此,通过强化方法,收敛攻击入口更具成本效益。禁止所有高风险端口向互联网开放,可将入侵概率降低 90% 以上。

  网络入侵

  随着高风险端口的加强,黑客知识库中的许多攻击方法都将失败。但Web服务是现代互联网公司的主要服务形式,它们不可能全部关闭。

  因此,基于PHP、Java、ASP、ASP.NET、Node、C-write CGI等的动态Web服务漏洞成为黑客的主要切入点。

  例如,使用上传功能直接上传一个 WebShell,使用

  文件收录

函数,直接引用并执行远程WebShell(或代码),然后利用代码执行的功能直接执行任意命令作为shell的入口,解析一些图片、视频服务,上传恶意样本,触发解析库的漏洞。Web

  服务下的应用安全是一个专门的领域(戈道还专门写了一本书《白帽谈Web安全》),具体的攻防场景和对抗已经发展得非常成熟。

  当然,由于它们都是由 Web 服务传送的,因此入侵行为会有一些共性。相对容易发现黑客GetShell和正常业务行为之间的一些差异。

  对于 Web 服务的入侵痕迹检测,我们可以考虑采集

WAF 日志、访问日志、Auditd 记录的系统调用或 shell 指令,以及网络级响应相关数据,提取攻击成功的特征,建议我们重点关注这些方面。

  0日入侵

  根据泄露的工具包,在早期,国家安全局拥有直接攻击Apache和Nginx等服务的零日武器。

  这意味着对手很可能根本不关心我们的代码和服务是写什么的,拿 0day 一打,而 GetShell 却不知道。

  但对于入侵检测来说,这并不可怕:因为无论攻击者利用什么漏洞作为条目,它使用的shellcode和它自己遵循的行为仍然具有共性。

  阿帕奇有一个

  0-day漏洞被攻击,或者一个PHP页面有低级代码漏洞被利用,从入侵行为来看,可能一模一样,入侵检测模型也可以泛化。

  因此,关注黑客 GetShell 条目和后续行为可能比关注漏洞条目更有价值。当然,仍然需要跟进特定的漏洞,然后验证其行为是否符合预期。

  办公终端入侵

  在绝大多数APT报告中,黑客首先攻击人(办公终端),比如发邮件,哄我们打开,控制我们的PC,然后进行长期观察/翻转,获取我们的合法凭证,然后漫游内网。

  因此,这些报告中的大多数都侧重于描述黑客使用的*敏*感*词*木马行为以及家族代码的相似性。大多数反APT产品和解决方案也是在办公终端的系统调用层面,使用类似的方法来测试“不杀木马”的行为。

  因此,EDR产品+邮件安全网关+办公网络出口行为审计+APT产品沙箱可以组合起来采集

相应的数据,并制作类似的入侵检测感知模型。

  最重要的一点是,黑客喜欢关注内部重要的基础设施,包括但不限于AD域名控制、邮件服务器、密码管理系统、权限管理系统等,一旦被拿走,就相当于成为了内网的“神”,可以为所欲为。

  因此,对于公司来说,重要的基础设施应该有针对性地进行攻防加固讨论,微软甚至还发布了针对AD的专门加固白皮书。

  入侵检测的基本原理

  彻底跟踪每个警报的模型不能等同于无效模型。入侵发生后,其实在防御前有警报,但有太多没有跟随/没有彻底检查,这是“事后诸葛亮”,相当于没有发现的能力。

  因此,对于日均上千次告警的产品,安防操作人员往往会表示无奈。我们必须阻止重复发生的类似警报,以便专注于关闭每个警报的循环。这将创建一个白名单或漏报,因此模型的漏报是不可避免的。

  由于任何模型都会有假阴性,我们必须在多个纬度上制作多个模型以形成相关性和深度。

  假设 WebShell 静态文本分析被黑客变形绕过,还可以监控 RASP(运行时环境)中的恶意调用,这使您可以选择接受来自单个模型的漏报,但总体上仍然具有可发现性。

  由于每个单场景模型都有误报和漏报,因此我们需要考虑我们做什么场景和不做什么场景的“成本性能”。

  比如一些变形的WebShell可以写得非常类似于商业代码,人眼几乎无法识别,然后追求必须反对文本分析,这是一个非常划算的决策。如果RASP的检测方案通过,则更具成本效益,更可行。

  了解所有黑客的攻击方法并不容易,而且我们不太可能为每种方法制定策略(因为资源总是稀缺)。

  因此,对于关键业务,需要采用强化的方法(也需要规范化监控和加固的有效性),让黑客可以攻击的路径极其收敛,只在关键环节进行对抗。至少,它可以具有保护核心业务的能力。

  基于上述原理,我们可以知道这样一个事实,即我们可能永远无法在单个点实现对入侵的 100% 检测,但我们可以使用一些组合来使攻击者难以绕过所有点。

  当老板或者蓝军挑战缺少单点探测能力时,如果为了“政治正确”,在这个单点上无休止地投入,试图让一个点100%可发现,很多时候可能只是想办法制造一个“永动机”,纯粹是浪费人力、物力, 没有产生实际利益。

  节省的资源和更纵深的防御链的成本效益安排显然会更好。

  入侵检测产品的主流形式

  入侵检测最终是基于数据来建模的,比如WebShell的检测,首先识别Web目录,然后对Web目录下的文件进行文本分析,这需要一个采集

器。

  这基于 shell 命令

  的入侵检测模型需要获取所有 shell 命令,这可能需要挂接系统调用或劫持 shell。

  基于网络 IP 信誉、流量有效负载或邮件网关的内容检查的检测可能会植入网络*敏*感*词*,以绕过流量采集

  还有一些聚合器,基于多个传感器,采集

各方日志,汇总到SOC或SIEM中,然后提交给大数据平台进行综合分析。

  因此,业界的入侵检测相关产品大致分为以下几种形式:(

  1)主机代理类:黑客攻击主机后,对主机执行的操作可能会产生日志、进程、命令、网络等痕迹,然后在主机上部署一个采集

器(也收录

一些检测规则),称为基于主机的入侵检测系统,简称HIDS。

  典型产品:OSSEC、青藤云、安勤、Security Dog和谷歌最近发布了其类似产品的alpha版本,云安全指挥中心。当然,一些APT供应商通常在主机上安装传感器/代理,例如FireEye。

  (2)网络检测:由于大多数攻击媒介会通过网络在目标上掉落一些有效载荷,或者控制目标本身的协议具有很强的特性,因此具有网络级识别的优势。

  典型产品:Snort到商业NIDS / NIPS,对应于APT级别,以及FireEye的NX等产品。

  (3)日志集中存储和分析:此类产品允许主机、网络设备和应用程序输出自己的日志,并将其集中到统一的后台中。

  在此背景下,对各种日志进行全面分析,以确定是否可以关联入侵的多个路径。

  例如,主机 A 的 Web 访问日志显示它被尝试扫描和攻击,然后是主机级别的陌生进程和网络连接,最后主机 A 对内网的其他主机进行了横向渗透尝试。

  

" />

  典型产品:SIEM产品,如LogRhythm和Splunk。

  (4)APT沙盒:沙盒产品更接近云版高级杀毒软件,通过模拟进行观察行为,对抗未知样本的弱特征特征。

  只不过它需要一个模拟的运行进程,性能开销大,在早期被认为是“性价比高”的解决方案,但由于恶意文件的隐藏行为难以对抗的特性,所以现在已经成为APT产品的核心组件。

  通过网络流量、终端采集、服务器可疑样本提取、邮件附件提取等方式获取的未知样本,可以提交到沙箱运行行为,判断是否恶意。

  典型产品:FireEye,Palo Alto,Symantec,Microstep。

  (5)终端入侵检测产品:移动终端上没有实际产品,没有必要。PC端首先需要的是杀毒软件,如果能检测到恶意程序,可以在一定程度上避免入侵。

  但是,如果您遇到未被杀死的高级0day和*敏*感*词*木马,则可能会绕过防病毒软件。借鉴了服务器上HIDS的思路,EDR的概念也诞生了,除了本地逻辑,主机还会采集

更多的数据到后端,在后端进行综合分析和联动。

  也有人说,下一代杀毒软件将带来EDR功能,但目前的销售依然是单独销售。

  典型产品:防病毒软件包括Bit9、SEP、赛门铁克、卡巴斯基、迈克菲;EDR产品没有上市,腾讯的iOA、阿里的阿里郎,在一定程度上可以起到类似的作用。

  入侵检测效果评价指标首先,主动发现的

  入侵案例/所有入侵=主动发现率。这个指标一定是最直观的。

  更麻烦的是分母,很多真正的入侵,如果外界不反馈,我们也不去发现,它就不会出现在分母中,所以有效发现率总是被夸大,谁能保证目前所有的入侵都被发现了呢?但实际上,只要入侵

  次数足够,无论是SRC收到的情报,还是“暗网”报道的大新闻,客观已知的入侵都列在分母上,总能计算出主动发现率。

  另外,真正的入侵其实是一种低频行为,如果大型互联网公司全年被入侵成百上千,那绝对是不正常的。

  因此,如果长时间没有真正的入侵案例,

  该指标在很长一段时间内不会改变,并且无法表征入侵检测能力是否在提高。

  因此,我们一般引入两个指标来观察:蓝军

  主动的高频对抗和演练可以弥补真实入侵事件低频的不足,但由于蓝军掌握的攻击手段往往有限,所以在他们多次演练之后可能会列出方法和场景。

  假设某个场景构建器尚未完成其能力,蓝军将相同的姿势锻炼 100 次,添加 100 个未被发现的锻炼案例,这对构建者没有更多的帮助。因此,已知攻击方法的既定覆盖率也是一个更好的评估指标。入侵检测

  团队专注于已知攻击方式的优先级评估和快速覆盖,对于构建到多远才能满足需求,必须有自己的专业判断(参考入侵检测原理中的“性价比”原则)。

  一个场景的入侵检测能力的公布,要有基本的验收原则:

  策略师的文档应该解释当前模型知道哪些情况,以及哪些情况将无法发出警报(测试一个人理解场景和他们自己的模型的能力)。

  通过以上判断,可以对策略的成熟度进行自我评分,并自由估计0-100。单个场景通常很难达到 100 分,但这没关系,因为从 80 分到 100 分的边际成本可能很高。

  不建议追求极端,而是要看整体,是否快速进入下一个场景。

  如果一个低于满分的场景经常有真正的对抗,并且没有其他策略可以弥补,则可能需要重新审视自我评估结论并提高接受标准。至少解决工作中遇到的实际案例应该优先。

  影响入侵检测的关键因素

  在讨论影响入侵检测的因素时,我们可以简要了解发生了哪些错误,阻止防御者主动检测入侵:

  因此,实际上,为了捕获入侵事件,我们需要入侵检测系统长时间运行,具有高质量和高可用性。这是一项非常专业的工作,超出了绝大多数安全工程师的能力和意愿。

  因此,建议指派专门的操作人员负责以下目标:

  有些学生可能会想,影响入侵检测的关键因素难道不是模型的有效性吗?为什么这么乱?

  事实上,大型互联网企业的入侵检测系统日均数据量可以达到数百TB以上。

  数十个业务模块,数百台机器。在数字规模上,它不亚于一些中小型企业的整个数据中心。

  如此复杂的系统,要长期保持高可用性标准,本身就需要SRE、QA等辅助角色的专业支持。

  如果只靠个别安全工程师,他们很难研究安全攻防,还要考虑基础数据的质量、服务的可用性和稳定性、发布时变更的标准化、各种运营指标和运维故障的及时响应。

  最终的结果是,在能力范围内能够发现的入侵,总是没有被各种“恰好”未被发现的事故所察觉。

  因此,

  笔者认为,在大多数安全团队运营质量较差的情况下,其实轮不到战略(技术)。当然,一旦您拥有跟进这些辅助工作的资源,入侵检测确实需要具有战略意义。

  这个时候,攻击手段这么多,为什么先选择这个场景建设呢?为什么您认为建筑在一定程度上足以满足当下的需求?你凭什么选择发现一些样本而放弃其他样本的对抗?

  这些看似主观的东西,都是非常考验专业判断力的。而且很容易在领导面前戴上“缺乏责任感”的帽子。

  比如找借口找困难而不是为目标找办法,这个方法被黑了很多次,为什么不解决呢,为什么那个方法说在视野之内,但明年就会解决?

  如何发现 APT?

  APT 是高级持续性威胁。既然是先进的,就意味着木马很可能没有杀伤(杀毒软件或普通功能都找不到),被利用的漏洞也是先进的(加固到牙齿可能挡不住敌人的脚步),攻击方式也非常先进(攻击现场我们可能没有看到)。

  因此,实际上,APT意味着无法检测到的入侵。但是,行业内总有APT检测产品,而解决方案的厂家都在吃混餐,他们是怎么做到的?

  那么,我们呢?笔者也没有好办法找到传说中的“不杀”木马,但是我们可以提取一些特征来提取已知黑客框架(如Metasploit、Cobalt Strike)生成的样本和行为。

  我们可以假设黑客已经控制了一台机器,但是当它试图横向传播时,我们有模型可以识别该主机的横向移动行为。

  笔者认为,世界上没有100%的方法来发现APT。但是我们可以等待实现APT的团队犯错误,只要我们足够深入,信息足够不对称,绝对有一定的困难,根本不触及我们所有的铃铛。

  即使攻击者需要小心翼翼地避开所有的检测逻辑,也可能给对手带来心理冲击,这可能会长时间延迟对手接近目标的速度。而这个时候,只要他犯了错误,就轮到我们出场了。

  之前所有的高标准,包括高覆盖率、低误报,逼每一次报警都跟到底,还有“挖三尺”的态度,都在等待这一刻。抓住一个令人钦佩的对手,那种成就感,还是值得细细品味的。

  因此,我

  希望所有从事入侵检测的安防同事都能坚持下去,即使无数次听到“狼来了”,下次看到警报时,依然能以最高的敬畏与对手相遇(警报虐待了我数千次,我像初恋一样等待警报)。

  入侵检测领域的 AI 正确姿势

  在过去的两年里,似乎不谈论人工智能的故事就不会完整。然而,随着人工智能概念的普及,很多人已经把传统的数据挖掘、统计分析等思路,如分类、预测、聚类、相关等算法,全部放进了人工智能的帽子里。

  事实上,人工智能是一种现代方法,在很多地方都有非常实用的输出。以 WebShell 的文本分析为例,分解上千个样本中隐含的几十种样本技术类型可能需要很长很长的时间,而逐个构建模型需要更长的时间(是的,特征工程在这样的场景下确实是一项较长的工作)。

  利用AI,做好数据标注、训练、参数调整,很快得到一个在实验室环境中没有那么过拟合的模型,并迅速投入生产。一点熟练可能需要 1-2 个月才能完成。

  在这种情况下,人工智能的现代方法确实可以大大提高效率。但问题是,如前所述,黑客攻击黑样本、WebShell样本,往往极其稀缺,无法完整地描述黑客的全部特征。

  因此,人工智能产生的结果,

  无论是假阳性率还是假阴性率,都会受到训练方法和输入样本的极大影响,我们可以使用AI,但绝对不能完全交给AI。

  安防领域一个比较普遍的现象是,很难通过数学模型解决标注解,将场景转化为标注问题。

  这时,往往要求安全专家先走,算法专家跟着,而不是直接让算法专家“单干”。

  对于特定的攻击场景,如何采集

相应的入侵数据,思考这种入侵动作与正常行为的区别,而这个特征的提取过程往往决定了模型的最终效果。特征决定了效应的上限,而算法模型只能确定与这个上限的接近程度。

  以前,

  笔者看过一个案例,AI团队制作了一个实验室环境优良、误报率为1/1000000的WebShell模型,但在初始生产环境下,平均每天6000次的告警完全无法操作,并且存在大量误报。

  随着安全团队和人工智能工程师的共同努力,这些情况逐渐得到解决。但是,它并没有成功取代原来的特征工程模型。目前,业内有很多产品和文章在实践

  AI,但遗憾的是,这些文章和产品大多是“肤浅的”,并没有在真实环境中实践操作效果。

  一旦我们用前面的标准来要求它,就会发现,虽然AI是个好东西,但它绝对只是一个“半成品”。实际操作往往需要传统的特征工程和AI并行,以及持续迭代。

  未来一定是人工智能的世界,但有多少智能,未来可能摆放多少人工劳动。我们愿在这条路上继续与同行一起探索,交流分享更多。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线