网页采集器的自动识别算法( Web漏洞扫描器一般来讲,运维人员将精力转向如何处理安全风险上来)

优采云 发布时间: 2021-11-19 02:21

  网页采集器的自动识别算法(

Web漏洞扫描器一般来讲,运维人员将精力转向如何处理安全风险上来)

  

  随着Web开发的日益成熟,人们开始进入“数字生存”时代。网上银行、电子商务、个人空间、云存储等不断涌入生活,Web应用安全问题日益突出。

  根据 Gartner 的调查,75% 的信息安全攻击发生在 Web 应用程序而非网络级别。同时,OWASP公布的数据也显示,三分之二的网站相当脆弱,容易受到攻击。

  手动测试和审核 Web 应用程序的安全性是一项复杂且耗时的任务。对于安全运维人员来说,基于安全的管理会占用大量的工作时间。自动化的Web漏洞扫描器可以大大简化安全风险的检测,帮助安全运维人员专注于如何应对安全风险。

  网络漏洞扫描器

  一般来说,Web漏洞扫描器是一种基于URL的漏洞扫描工具,工作中需要解决两个关键问题:采集和核心检测:

  如何采集输入源(即采集网站 URL)

  如何调用扫描插件(即扫描URL)

  如何评估扫描仪的质量?首先要注意的是:采集的网址是否足够全面?如果资产采集不完整,检测精度无从谈起。

  传统爬虫技术发现率低

  在Web漏扫中,采集输入源一般包括爬虫、流量、代理、日志等。爬虫是获取扫描后的网站 URLs.采集模式最常见也是必不可少的方式。

  网络漏洞扫描器爬虫比其他网络爬虫面临更高的技术挑战。这是因为漏洞扫描器爬虫不仅需要抓取网页内容和分析链接信息,还需要在网页上尽可能多地触发。事件,从而获得更有效的链接信息。

  然而,现有爬虫受限于其固有的技术缺陷,给使用Web漏洞扫描工具的安全运维人员带来了诸多问题:

  1、 容易触发WAF设置的IP访问限制

  一般情况下,网站的防火墙会限制一定时间内可以请求固定IP的次数。如果不超过上限,则正常返回数据,超过上限则拒绝请求。值得注意的是,IP 限制大部分时间是为了抵御 DOS 攻击的 网站 安全原因,而不是专门针对爬虫。但是传统爬虫工作时,机器和IP都是有限的,很容易达到WAF设置的IP上限而导致请求被拒绝。

  2、 无法自动处理网页交互问题

  Web2.0时代,Web应用与用户交互非常频繁,对漏网的爬虫造成干扰。以输入验证码登录为例。网站 会生成一串随机生成的数字或符号的图片,给图片添加一些干扰像素(防止OCR),用户可以直观的识别验证码信息并输入表单提交< @网站验证,验证成功后才能使用某个功能。当传统爬虫遇到这种情况时,通常很难自动处理。

  3、 无法抓取 JavaScript 解析的网页

  JavaScript 框架的诞生对于效率时代的研发工程师来说是一大福音,工程师们可以摆脱开发和维护的痛苦。毫无疑问,Angular、React、Vue 等单页应用的 Web 框架已经成为开发者的首选。JavaScript解析的网页越来越流行,所以网页中大部分有用的数据都是通过ajax/fetch动态获取然后通过js填充到网页的DOM树中的,有用的数据很少纯HTML静态页面,直接导致Web爬虫不完整抓取。

  传统爬行动物和集中爬行动物

  纵观市场上常用的漏洞扫描产品,使用的爬虫通常包括以下两大类,即传统爬虫和聚焦爬虫:

  传统爬虫

  其工作流程是从一个或多个初始网页的URL开始,获取初始网页上的URL。在抓取网页的过程中,它不断地从当前页面中提取新的URL并将它们放入队列中,直到满足一系列系统设置。停止条件,爬行操作停止。

  

  传统爬虫流程图侧重爬虫

  聚焦爬虫的工作流程比传统爬虫复杂。需要根据一定的网页分析算法过滤与扫描目标无关的网址,保留有用的网址,放入网址队列等待抓取。然后,它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址,重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤和索引,以备以后查询检索;因此,一个完整的聚焦爬虫一般收录以下三个模块:Web请求模块、爬取过程控制模块、内容分析提取模块。

  但是,无论是传统爬虫还是聚焦爬虫,由于其固有的技术缺陷,无法在URL为采集<时自动处理网页交互、JavaScript解析,并容易触发外部WAF防御措施。 @网站 以及其他问题。

  X-Ray创新技术提高爬虫发现率

  X-Ray安全评估系统针对当前用户错过的爬虫,创造性地提出了基于语义分析、机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染的实时渲染DOM遍历算法采集 目标 URL 问题。“新爬虫”:

  1、 创新加入js语义分析算法,避免IP访问超限

  对于传统的网站,长亭科技创新在专注爬虫的基础上,采用js语义分析算法,针对WAF针对DOS攻击采取的IP访问限制防御措施,X-Ray爬虫将本地攻击JS解析文件,在理解语义的基础上解析网站结构,不会疯狂触发请求,从而避免超出IP访问限制被拒绝访问的情况。

  

  X-Ray专注爬虫流程原理图2、通过机器学习技术实现交互行为分析

  对于单页应用网站,X-Ray 已经嵌入了一个模拟浏览器爬虫。通过使用机器学习技术,X-Ray 的模拟浏览器爬虫使用各种 Web 应用程序页面结构作为训练样本。在访问每个页面时,可以智能判断各种交互操作。判断逻辑大概是这样:

  判断是表单输入、点击事件等;

  自动判断表单输入框应填写哪些内容,如用户名、密码、IP地址等,然后填写相应的内容样本;

  点击事件自动触发,请求发起成功。3、 *敏*感*词*真实时渲染DOM遍历算法完美解决JavaScript解析

  针对JavaScript解析的单页Web应用,X-Ray模拟浏览器创新引入了高模拟实时渲染DOM遍历算法。在该算法引擎的驱动下,可以完美解析Angular、React、Vue等Web框架。实现的单页应用网站对Web页面中的所有内容进行操作,达到获取URL信息的目的目标网站。判断逻辑如下:

  找到网页的DOM节点,形成DOM树;

  内置浏览器,从深度和广度两个层次,对网页进行高度模拟的DOM树遍历;

  真实浏览器画面,实时渲染DOM树的遍历过程

  X-Ray在机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染驱动下,模拟浏览器爬虫的行为,智能模拟人类行为,自动进行点击、双击、拖拽等操作,从而避免了传统爬虫在获取到 URL 时,无法满*敏*感*词*互,无法处理 JavaScript 解析。

  下面以访问DVWA为例,展示模拟浏览器的行为

  

  dvwa浏览器点击

  以网银、电子商务、云存储等Web应用为代表的Web3.0时代已经到来,X-Ray安全评估系统蓄势待发。你准备好了吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线