网页采集器的自动识别算法( Web漏洞扫描器一般来讲，运维人员将精力转向如何处理安全风险上来)

优采云发布时间: 2021-11-19 02:21

　　网页采集器的自动识别算法(

Web漏洞扫描器一般来讲，运维人员将精力转向如何处理安全风险上来)

　　随着Web开发的日益成熟，人们开始进入“数字生存”时代。网上银行、电子商务、个人空间、云存储等不断涌入生活，Web应用安全问题日益突出。

　　根据 Gartner 的调查，75% 的信息安全攻击发生在 Web 应用程序而非网络级别。同时，OWASP公布的数据也显示，三分之二的网站相当脆弱，容易受到攻击。

　　手动测试和审核 Web 应用程序的安全性是一项复杂且耗时的任务。对于安全运维人员来说，基于安全的管理会占用大量的工作时间。自动化的Web漏洞扫描器可以大大简化安全风险的检测，帮助安全运维人员专注于如何应对安全风险。

　　网络漏洞扫描器

　　一般来说，Web漏洞扫描器是一种基于URL的漏洞扫描工具，工作中需要解决两个关键问题：采集和核心检测：

　　如何采集输入源（即采集网站 URL）

　　如何调用扫描插件（即扫描URL）

　　如何评估扫描仪的质量？首先要注意的是：采集的网址是否足够全面？如果资产采集不完整，检测精度无从谈起。

　　传统爬虫技术发现率低

　　在Web漏扫中，采集输入源一般包括爬虫、流量、代理、日志等。爬虫是获取扫描后的网站 URLs.采集模式最常见也是必不可少的方式。

　　网络漏洞扫描器爬虫比其他网络爬虫面临更高的技术挑战。这是因为漏洞扫描器爬虫不仅需要抓取网页内容和分析链接信息，还需要在网页上尽可能多地触发。事件，从而获得更有效的链接信息。

　　然而，现有爬虫受限于其固有的技术缺陷，给使用Web漏洞扫描工具的安全运维人员带来了诸多问题：

　　1、容易触发WAF设置的IP访问限制

　　一般情况下，网站的防火墙会限制一定时间内可以请求固定IP的次数。如果不超过上限，则正常返回数据，超过上限则拒绝请求。值得注意的是，IP 限制大部分时间是为了抵御 DOS 攻击的网站安全原因，而不是专门针对爬虫。但是传统爬虫工作时，机器和IP都是有限的，很容易达到WAF设置的IP上限而导致请求被拒绝。

　　2、无法自动处理网页交互问题

　　Web2.0时代，Web应用与用户交互非常频繁，对漏网的爬虫造成干扰。以输入验证码登录为例。网站会生成一串随机生成的数字或符号的图片，给图片添加一些干扰像素（防止OCR），用户可以直观的识别验证码信息并输入表单提交< @网站验证，验证成功后才能使用某个功能。当传统爬虫遇到这种情况时，通常很难自动处理。

　　3、无法抓取 JavaScript 解析的网页

　　JavaScript 框架的诞生对于效率时代的研发工程师来说是一大福音，工程师们可以摆脱开发和维护的痛苦。毫无疑问，Angular、React、Vue 等单页应用的 Web 框架已经成为开发者的首选。JavaScript解析的网页越来越流行，所以网页中大部分有用的数据都是通过ajax/fetch动态获取然后通过js填充到网页的DOM树中的，有用的数据很少纯HTML静态页面，直接导致Web爬虫不完整抓取。

　　传统爬行动物和集中爬行动物

　　纵观市场上常用的漏洞扫描产品，使用的爬虫通常包括以下两大类，即传统爬虫和聚焦爬虫：

　　传统爬虫

　　其工作流程是从一个或多个初始网页的URL开始，获取初始网页上的URL。在抓取网页的过程中，它不断地从当前页面中提取新的URL并将它们放入队列中，直到满足一系列系统设置。停止条件，爬行操作停止。

　　传统爬虫流程图侧重爬虫

　　聚焦爬虫的工作流程比传统爬虫复杂。需要根据一定的网页分析算法过滤与扫描目标无关的网址，保留有用的网址，放入网址队列等待抓取。然后，它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址，重复上述过程，直到达到系统的某个条件时停止。另外，爬虫爬过的所有网页都会被系统存储起来，进行一定的分析、过滤和索引，以备以后查询检索；因此，一个完整的聚焦爬虫一般收录以下三个模块：Web请求模块、爬取过程控制模块、内容分析提取模块。

　　但是，无论是传统爬虫还是聚焦爬虫，由于其固有的技术缺陷，无法在URL为采集<时自动处理网页交互、JavaScript解析，并容易触发外部WAF防御措施。 @网站以及其他问题。

　　X-Ray创新技术提高爬虫发现率

　　X-Ray安全评估系统针对当前用户错过的爬虫，创造性地提出了基于语义分析、机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染的实时渲染DOM遍历算法采集目标 URL 问题。“新爬虫”：

　　1、创新加入js语义分析算法，避免IP访问超限

　　对于传统的网站，长亭科技创新在专注爬虫的基础上，采用js语义分析算法，针对WAF针对DOS攻击采取的IP访问限制防御措施，X-Ray爬虫将本地攻击JS解析文件，在理解语义的基础上解析网站结构，不会疯狂触发请求，从而避免超出IP访问限制被拒绝访问的情况。

　　X-Ray专注爬虫流程原理图2、通过机器学习技术实现交互行为分析

　　对于单页应用网站，X-Ray 已经嵌入了一个模拟浏览器爬虫。通过使用机器学习技术，X-Ray 的模拟浏览器爬虫使用各种 Web 应用程序页面结构作为训练样本。在访问每个页面时，可以智能判断各种交互操作。判断逻辑大概是这样：

　　判断是表单输入、点击事件等；

　　自动判断表单输入框应填写哪些内容，如用户名、密码、IP地址等，然后填写相应的内容样本；

　　点击事件自动触发，请求发起成功。3、 *敏*感*词*真实时渲染DOM遍历算法完美解决JavaScript解析

　　针对JavaScript解析的单页Web应用，X-Ray模拟浏览器创新引入了高模拟实时渲染DOM遍历算法。在该算法引擎的驱动下，可以完美解析Angular、React、Vue等Web框架。实现的单页应用网站对Web页面中的所有内容进行操作，达到获取URL信息的目的目标网站。判断逻辑如下：

　　找到网页的DOM节点，形成DOM树；

　　内置浏览器，从深度和广度两个层次，对网页进行高度模拟的DOM树遍历；

　　真实浏览器画面，实时渲染DOM树的遍历过程

　　X-Ray在机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染驱动下，模拟浏览器爬虫的行为，智能模拟人类行为，自动进行点击、双击、拖拽等操作，从而避免了传统爬虫在获取到 URL 时，无法满*敏*感*词*互，无法处理 JavaScript 解析。

　　下面以访问DVWA为例，展示模拟浏览器的行为

　　dvwa浏览器点击

　　以网银、电子商务、云存储等Web应用为代表的Web3.0时代已经到来，X-Ray安全评估系统蓄势待发。你准备好了吗？

0

2021-11-19

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法( Web漏洞扫描器一般来讲，运维人员将精力转向如何处理安全风险上来)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法( Web漏洞扫描器一般来讲，运维人员将精力转向如何处理安全风险上来)

0 个评论

发起人

相关问题