操作方法:一种能识别网页信息自动采集的系统与方法

优采云 发布时间: 2020-10-06 12:00

  可以自动识别网页信息的系统和方法采集

  专利名称:一种可以自动识别网页信息的系统和方法采集

  技术领域:

  本发明涉及网页动态分析技术领域,尤其属于一种可以识别网页信息的自动系统和方法。

  背景技术:

  随着Internet的发展,越来越多的Internet网站出现了,形式无穷无尽,包括新闻,博客,论坛,SNS,微博等。根据CNNIC今年的最新统计,中国现在有85亿网民4.和超过130万个各种站点域名。随着Internet信息的爆炸式增长,搜索引擎已成为人们查找Internet信息的最重要工具。搜索引擎主要自动抓取网站信息,对其进行预处理,并在分词后建立索引。输入搜索词后,搜索引擎可以自动为用户找到最相关的结果。经过十多年的发展,搜索引擎技术已经相对成熟,并且由于可以成功使用的商业模式,吸引了许多互联网公司进入。比较有名的有百度,谷歌,搜搜,搜狗,有道,奇虎360等。此外,在某些垂直领域(例如旅行,机票,价格比较等)中也有搜索引擎,已有上千家制造商进入。搜索引擎的第一步也是最重要的一步是信息捕获,这是搜索引擎的数据准备过程。具体过程如图1所示。URL DB存储所有要爬网的URL。 URL调度模块从URL DB中选择最重要的URL,并将它们放入URL下载队列中。页面下载模块下载队列中的URL。下载完成后,提取模块提取下载的页面代码的文本和URL,并将提取的文本发送到索引模块以进行单词分割和索引,然后将URL放入URL DB。信息采集流程是将其他人网站的信息放入您自己的信息数据库的过程,这会遇到一些问题。

  1、Internet信息每时每刻都在不断增加,因此信息爬网是7 * 24小时不间断的过程。频繁的爬网将给目标网站带来巨大的访问压力,从而形成DDOS拒绝服务攻击,从而导致无法为普通用户提供访问权限。这在中小型企业中尤为明显网站。这些网站硬件资源相对贫乏,技术力量不强,并且超过90%的Internet都是这种类型网站。例如:一个著名的搜索引擎由于频繁抓取某个网站而要求用户投诉。2、某些网站信息具有隐私权或版权。许多网页收录后台数据库,用户隐私,密码和其他信息。网站发起人不希望将此信息公开或免费使用。 Dianping.com曾经对Aibang.com提起诉讼,要求其对网站进行评论并将其发布在自身网站上。目前,网页反搜索引擎采集采用的主流方法是漫游器协议协议,网站使用漫游器txt协议控制搜索引擎收录是否愿意搜索内容,以及搜索引擎允许收录,并指定可用于收录和禁止的收录。同时,搜索引擎将根据为每个网站 Robots协议赋予的权限自觉地进行爬网。该方法假定搜索引擎的爬取过程如下:下载网站机器人文件-根据机器人协议解析文件-获取要下载的URL-确定URL的访问权限-确定是否进行爬网确定的结果。机器人协议是绅士协议,没有任何限制。搜寻计划仍然完全由搜索引擎控制,完全有可能在不遵循协议的情况下进行搜寻。

  例如,在2012年8月,一个著名的国内搜索引擎未遵循该协议来抓取百度网站内容,并被百度指控。另一种反采集方法主要使用动态技术来构建要禁止爬网的网页。该方法使用客户端脚本语言(例如JS,VBScript,AJAX)动态生成网页显示信息,从而实现信息隐藏,并使传统的搜索引擎难以获取URL和正文内容。动态网页构建技术仅增加了网页解析和提取的难度,不能从根本上禁止网页信息的采集解析。当前,一些高级搜索引擎可以模拟浏览器来实现所有脚本代码分析。获取所有信息的网络URL,从而获得存储在服务器中的动态信息。当前,存在成熟的网页动态分析技术,主要是通过解析网页中所有脚本代码段,然后获取网页的所有动态信息(包括有用信息和垃圾信息)来实现的。实际的实现过程以开源脚本代码分析引擎(如Rhino,V8等)为基础,以构建网页脚本分析环境,然后从网页中提取脚本代码段,并将将提取的代码段提取到网页脚本分析环境中,以执行以返回动态信息。解析过程如图2所示,因此使用动态技术构建动态网页的方法只会增加网页采集和分析的难度,而不会从根本上消除搜索引擎采集。

  发明内容

  本发明的目的是提供一种可以自动识别网页信息的系统和方法,从而克服了现有技术的缺点。系统通过分析网站的历史网页访问行为来建立自动采集。 ]分类器,可识别机器人的自动采集,并通过自动机器人采集的识别来实现网页的防爬网。本发明采用的技术方案如下:一种能够自动采集识别网页信息的系统和方法,包括anti 采集分类器构建模块,auto 采集识别模块和anti 采集 ]在线处理模块,anti 采集 k15]分类器构建模块,此模块主要用于使用计算机程序来学习并区分自动采集历史Web信息和正常Web页面访问行为。该模块提供了用于自动采集识别的训练模型。自动采集识别模块,此模块通过加载自动分类器自动识别搜索引擎程序的自动采集行为,并将采集程序的已标识IP段添加到黑名单中,黑名单中用于后续的在线拦截对于自动采集行为,如果访问者的IP已经在IP段中,则反采集在线处理模块主要用于自动在线判断和处理访问的用户;否则,将访问请求转发到Web服务器以进行进一步处理。反采集分类器构建模块的实现方法具体包括以下步骤:(5)日志解析子模块通过对站点访问日志的自动分析,包括用户对网站的访问,获得用户的访问行为信息。 IP,访问时间,访问URL,源URL;样本选择子模块基于连续一段时间内同一IP段中访问频率最高的数据记录,在步骤I中选择解析的数据记录样本采集;访问统计子模块对选定的样本数据进行统计,并计算同一IP段的平均页面停留时间,站点访问的页面总数,采集网页附件信息,第采集页的频率;(6)使用IP段作为主要关键字,将以上信息存储在样品库中并将其标记为未标记;(7)在步骤(I)中标记未标记的样品确定d。样品自动加工采集,标记为I;如果是用户浏览器的正常访问,则将其标记为0,并将所有标记的样本更新到数据库中; (8)计算机程序会自动学习样本库,并为稍后阶段的采集自动识别生成分类模型。

  [p15]中所述的采集自动识别模块的实现方法

  包括以下步骤:(5)识别程序的初始化阶段,完成分类器模型的加载,该模型可以确定自动的采集行为;(6)日志分析该程序解析最新的[网站访问日志,并将解析后的数据发送到访问统计模块; [7)访问统计模块计算相同IP段的平均页面停留时间,无论是采集 Web附件信息,网页采集频率;([ 8)分类器根据分类模型判断IP段的访问行为,并将判断为程序自动采集行为的IP段添加到黑名单中;反采集在线处理模块的实现方法包括:步骤:(I)为Web服务器转发的访问请求提取访问者的IP信息;(2)比较黑名单数据库中的IP信息(如果IP已在黑名单中),在这种情况下,将通知Web服务器拒绝IP的访问;否则,通知Web服务器正常处理访问请求。与现有技术相比,本发明的有益效果如下:本发明的系统分析网站网页访问行为的历史,建立自动采集分类器,识别自动采集分类器。机器人,通过自动识别机器人采集来实现网页的防抓取,自动发现搜索引擎网页采集的行为,并对其进行处理采集行为被屏蔽以从根本上消除采集个搜索引擎。

  图1是现有技术搜索引擎的信息捕获过程的*敏*感*词*。图2是现有技术的第二分析过程的*敏*感*词*;图3是本发明的anti 采集分类器的框图。图4是本发明的自动采集识别模块图;图5是本发明的抗采集在线处理模块。

<p>有关具体实施例,请参考附图。可以识别网页信息的反抓取系统和方法包括反采集分类器构建模块,自动采集识别模块和反采集在线处理模块。 采集分类器构建模块,此模块主要用于使用计算机程序来学习并区分自动采集历史Web信息和正常Web页面访问行为。该模块提供了用于自动采集识别的训练模型。自动采集识别模块主要用于加载自动分类器以自动识别搜索引擎程序的自动采集行为,并将识别的采集程序的IP段添加到黑名单中。该列表用于后续的自动采集行为的在线拦截。 anti- 采集在线处理模块主要用于自动在线判断和处理访问的用户。如果访问者的IP已经在IP中。在细分黑名单中,该IP被拒绝访问;否则,将访问请求转发到Web服务器以进行进一步处理。反采集分类器构建模块的实现方法具体包括以下步骤:(9)日志解析子模块通过自动分析站点访问日志来获取用户访问行为信息,包括用户访问网站 IP,访问时间,访问URL,源URL;样本选择子模块基于连续一段时间内相同IP段中访问频率最高的数据记录,作为候选数据样本采集,选择步骤I中的解析数据记录。访问统计子模块对所选样本数据进行统计,并计算相同IP段的平均页面停留时间,访问的页面总数,采集个网页附件信息,采集个网页

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线