中国现已有网民4.85亿各类站点域名130余万个爆炸

优采云发布时间: 2021-08-06 18:26

　　专利名称：一种能够自动识别网页信息的系统和方法采集

　　技术领域：

　　本发明涉及网页动态分析技术领域，具体属于一种自动识别网页信息的系统及方法。

　　背景技术：

　　随着互联网的发展，越来越多的互联网网站出现，形式层出不穷，包括新闻、博客、论坛、SNS、微博等。据CNNIC今年最新统计，现在中国有4.850亿网民，各个网站的域名超过130万个。在互联网信息爆炸式增长的今天，搜索引擎已经成为人们查找互联网信息的最重要工具。搜索引擎主要是自动抓取网站信息，进行预处理，分词后建立索引。输入搜索词后，搜索引擎可以自动为用户找到最相关的结果。经过十多年的发展，搜索引擎技术已经比较成熟，并且因为可以采用成功的商业模式，吸引了众多互联网厂商的进入。比较有名的有百度、谷歌、搜搜、搜狗、有道、奇虎360等。此外，在一些垂直领域（如旅游、机票、比价等）还有搜索引擎，已经有千余家厂商进入。搜索引擎的第一步也是最重要的一步是信息捕获，这是搜索引擎的数据准备过程。具体流程如图1所示。URL DB存储了所有要爬取的URL。 URL调度模块从URL DB中选出最重要的URL，放入URL下载队列。页面下载模块下载队列中的 URL。下载完成后，模块被解压。提取下载的页面代码的文本和URL，将提取的文本发送到索引模块进行分词索引，并将URL放入URL DB。信息采集进程就是把别人的网站信息放入自己数据库的过程，会遇到一些问题。

　　1、互联网信息每时每刻都在不断增加，因此信息抓取是一个7*24小时不间断的过程。频繁的爬取会给目标网站带来巨大的访问压力，形成DDOS拒绝服务攻击，导致无法为普通用户提供访问。这在中小型网站中尤为明显。这些网站硬件资源比较差，技术力量不强，网上90%以上都是网站这种类型的。例如：某知名搜索引擎因频繁爬取网站而呼吁用户投诉。 2、某些网站的信息具有隐私或版权。许多网页收录后端数据库、用户隐私和密码等信息。网站主办方不希望将这些信息公开或免费使用。大众点评曾对爱帮网提起诉讼，称其在网站上抓取评论，然后在网站上发布。目前搜索引擎网页针对采集采用的主流方式是robots协议协议。网站使用robots,txt协议来控制其内容是否愿意被搜索引擎收录搜索，以及允许收录哪些搜索引擎搜索，并为收录指定自己的内容和禁止收录。同时，搜索引擎会根据每个网站Robots 协议赋予的权限，有意识地进行抓取。该方法假设搜索引擎抓取过程如下：下载网站robots文件-根据robots协议解析文件-获取要下载的网址-确定该网址的访问权限-确定是否根据到判定的结果。 Robots协议是君子协议，没有任何限制，抓取主动权还是完全由搜索引擎控制，完全可以不遵循协议强行抓取。

　　比如2012年8月，国内某知名搜索引擎不按照协议抓取百度网站内容，被百度指控。另一种反采集方法主要是利用动态技术构建禁止爬取的网页。该方法利用客户端脚本语言（如JS、VBScript、AJAX）动态生成网页显示信息，从而实现信息隐藏，使常规搜索引擎难以获取URL和正文内容。动态网页构建技术只是增加了网页解析提取的难度，并不能从根本上禁止采集和网页信息的解析。目前，一些高级搜索引擎可以模拟浏览器来实现所有的脚本代码解析。获取所有信息的网络URL，从而获取服务器中存储的动态信息。目前有成熟的网页动态分析技术，主要是解析网页中所有的脚本代码段，然后获取网页的所有动态信息（包括有用信息和垃圾信息）。实际实现过程是以开源脚本代码分析引擎（如Rhino、V8等）为核心搭建网页脚本分析环境，然后从网页中提取脚本代码段，并放入提取的代码段放入网页脚本分析环境中执行分析返回动态信息。解析过程如图2所示。因此，采用动态技术构建动态网页的方法只是增加了网页采集和解析的难度，并没有从根本上消除采集搜索引擎。

　　发明内容

　　本发明的目的在于提供一种能够自动识别网页信息采集的系统和方法，克服现有技术的不足。系统通过分析网站的历史网页访问行为，建立自动化的采集。 @Classifier，识别机器人自动采集，通过机器人自动采集识别实现网页的反爬虫。本发明采用的技术方案是：一种自动识别网页信息采集的系统及方法，包括anti采集分类器构建模块、自动采集识别模块和anti采集在线处理模块，以及anti采集在线处理模块。采集分类器构建模块主要用于通过计算机程序学习和区分自动采集历史网页信息和正常网页访问行为。该模块提供了自动采集识别的训练模型。自动采集识别模块，该模块通过加载自动分类器自动识别搜索引擎程序的自动采集行为，并将识别出的采集程序所在的IP段加入黑名单，黑名单是用于后续在线拦截自动采集行为。反采集在线处理模块主要用于对来访用户进行自动在线判断和处理。如果访问者的IP已经在该IP段的黑名单中，则该IP被拒绝访问；否则，将访问请求转发给Web服务器进行进一步处理。反采集分类器构建模块的实现方法具体包括以下步骤：（5)日志分析子模块通过自动分析站点访问日志，获取用户访问行为信息，包括用户对网站IP的访问，访问时间，访问URL，源URL；样本选择子模块根据连续时间段内同一IP段内访问频率最高的数据记录，选择步骤I中解析的数据记录作为候选数据样本采集；访问统计子模块对选取的样本数据进行统计，计算出同一IP段的平均页面停留时间，访问的页面总数，是否为采集网页附件信息，网页采集频率；（6)以IP段为主要关键字，将上述信息保存在样本库中，并将其标记为未标记；（7)标记步骤（I）中未标记的样本，如果确定样本库le是自动采集，会被标记为I；如果用户浏览器正常访问，则标记为0，所有标记的样本都会更新到数据库中；（8)计算机程序会自动从样本库中学习，生成分类模型，用于后期自动采集识别。

　　自动采集识别模块的实现方法包括以下步骤：（5)identification程序初始化阶段，完成分类器模型的加载，模型可以判断自动采集行为；（6)日志分析程序解析最新的网站访问日志，并将解析出的数据发送给访问统计模块；（7)访问统计模块计算同一IP段的平均页面停留时间，是否为采集web附件信息，网页采集frequency；（8)classifier根据分类模型判断IP段的访问行为，将判断为程序自动采集行为的IP段加入黑名单；表示反@采集在线处理模块实现方法包括以下步骤： (I) 为web服务器转发的访问请求提取访问者的IP信息；（2)比较黑名单库中的IP信息，如果IP已经y在黑名单中，此时通知web服务器拒绝该IP的访问；否则，通知Web服务器正常处理访问请求。与现有技术相比，本发明的有益效果如下：本发明的系统分析网站网页访问行为的历史，建立一个自动采集分类器，识别自动采集机器人，通过自动机器人采集识别实现网页的反爬行，自动发现搜索引擎网页的采集行为并进行响应采集行为被屏蔽，采集搜索引擎从根本上被淘汰。

　　图1是现有技术搜索引擎的信息抓取过程*敏*感*词*；图2是现有技术的第二种分析过程*敏*感*词*；图3为本发明的anti采集分类器构建框图*敏*感*词*；图4为本发明自动采集识别模块图；图5为本发明反采集在线处理模块。

　　具体实施例见附图。一种能够识别网页信息的反抓取系统和方法，包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块。采集Classifier 构建模块，该模块主要用于通过计算机程序学习和区分采集自动历史网页信息和正常网页访问行为。该模块提供了自动采集识别的训练模型。自动采集识别模块主要用于加载自动分类器自动识别搜索引擎程序的自动采集行为，并将识别出的采集程序的IP段加入黑名单。该列表用于后续在线拦截自动采集行为。所述anti采集在线处理模块主要用于对来访用户的在线自动判断和处理。如果访问者的IP已经在IP段黑名单中，则该IP被拒绝访问；否则，将访问请求转发给Web服务器进行进一步处理。反采集分类器构建模块实现方法具体包括以下步骤：（9)日志分析子模块通过自动分析站点访问日志，获取用户访问行为信息，包括用户访问网站IP、访问时间，访问URL，源URL；样本选择子模块根据连续时间段内同一IP段内访问频率最高的数据记录，选择步骤I中解析的数据记录作为候选数据样本集合；访问统计子模块对选取的样本数据进行统计，计算出同一IP段的平均页面停留时间、站点总访问页面数、是否为采集网页附件信息、webpage采集

　　频率；（10)以IP段为主要关键字，将上述信息保存在样本库中，并标记为未标记；（11)对未标记样本执行步骤（I）中的程序如果确定如果样本是机器自动采集，则标记为I；如果用户浏览器正常访问，则标记为0，所有标记的样本都会更新到数据库中；（12)计算机程序会自动检查样本库学习并生成分类模型，用于后续自动采集识别。所述的自动采集识别模块实现方法包括以下步骤：（9)识别程序初始化阶段，完成加载分类器模型，该模型可以自动判断采集行为；（10)日志分析程序解析最新的网站访问日志，并将解析后的数据发送给访问统计模块；（11)访问统计模块计算平均值e 同一IP段的页面停留时间，是否是采集web附件信息，网页采集频率；（12)classifier根据分类模型判断IP段的访问行为，判断为自动程序采集Behavior的IP段加入黑名单；反采集的实现方法在线处理模块包括以下步骤： (i) 为web服务器转发的访问请求提取访问者的IP信息；（2)比较黑名单库中的IP信息，如果IP已经在黑名单中，则通知访问者web server 拒绝访问该IP；否则通知web server 正常处理访问请求计数器采集classifier 构造该模块主要用于训练计算机程序，使其能够学习和区分历史web信息自动采集和正常的网页访问行为，该模块可以为后续的自动采集识别提供训练模型，具体包括以下几个步骤。2.2.1.1 日志解析本模块需要解析服务器的历史访问日志（可以选择某一天的日志）提取获取用户的访问行为信息，包括用户访问网站使用的IP，访问发生的时间，访问的URL，和源网址。具体包括以下两个步骤： (I) 为每个要提取的用户访问信息项编写正则表达式。 IP表达式提取正则表达式定义为：

　　声明

　　1.一种能够自动识别网页信息采集的系统和方法，其特征在于它包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块，反采集分类器构建模块主要用于利用计算机程序学习和区分自动采集历史网页信息和正常网页访问行为。该模块提供了自动采集识别的训练模型。上面提到的自动采集识别模块，该模块通过加载自动分类器自动识别搜索引擎程序的自动采集行为，并将识别出的采集程序的IP段加入黑名单。黑名单用于后续在线拦截自动采集行为。反采集在线处理模块主要用于对访问的用户进行自动在线判断和处理。如果访问者的IP已经在IP段黑名单中，则拒绝访问该IP；否则，将访问请求转发到 Web 服务器进行进一步处理。

　　2.根据权利要求1所述的一种能够识别网页信息的反爬虫系统及方法，其特征在于：所述反采集分类器构建模块实现方法具体包括以下步骤：(1)日志分析子模块通过对站点访问日志的自动分析，获取用户的访问行为信息，包括用户访问网站所使用的IP、访问时间、访问的URL、来源URL；样本选择子模块用于步骤I 选择中的分析数据记录是根据连续时间段内同一IP段中访问频率最高的数据记录作为候选数据加入样本集；访问统计子-module 对选取的样本数据进行统计，统计同一个IP段的平均页面停留时间、站点总访问页面数、是否采集web附件信息、网页采集频率；（2)以IP段作为主关键字，将上述信息保存在示例数据库中，并添加标记为未标记；（3)标记步骤（I）中未标记的样本，如果确定样本是自动采集，则标记为I；如果是用户浏览器正常访问，则标记为O，更新将所有标记的样本存入数据库；（4)计算机程序自动从样本库中学习并生成分类模型供后续采集自动识别。

　　3.根据权利要求1所述的一种能够识别网页信息的反爬虫系统及方法，其特征在于：自动采集识别模块的实现方法包括以下步骤：(1)ID输入)程序初始化阶段，加载分类器模型，模型可以自动判断采集行为；（2)日志分析程序解析最新的网站访问日志，并将解析后的数据发送到访问统计Wu块；（3)Access统计模块计算同一IP段的平均页面停留时间，是否是采集网页附件信息，网页采集频率；（4)Classifier基于分类模型访问IP段行为确定，确定为程序自动采集行为的IP段加入黑名单；

　　4.根据权利要求1所述的一种能够识别网页信息的反爬虫系统和方法，其特征在于：反采集在线处理模块实现方法包括以下步骤：（1)提取网页信息Web服务器转发访问请求的访问者IP信息；（2)比较黑名单库中的IP信息，如果IP已经在黑名单中，通知Web服务器拒绝IP访问；否则通知Web服务器正常处理访问请求。

　　全文摘要

　　本发明公开了一种自动识别网页信息采集的系统及方法，包括反采集分类器构建模块、自动采集识别模块、反采集在线处理模块、 anti采集 @classifier 构建模块主要用于利用计算机程序学习和区分自动采集历史网页信息和正常网页访问行为。自动采集识别模块使用上述步骤中的anti采集分类器。 , 自动识别搜索引擎程序的自动采集行为，并将识别出的采集程序所在的IP段加入黑名单。 anti采集在线处理模块主要用于对访问的用户进行自动在线判断和处理。本发明克服了现有技术的不足。系统通过分析网站历史网页访问行为建立自动采集分类器，识别机器人自动采集，并通过机器人自动采集识别实现网页反爬。

　　文件编号 G06F17/30GK103218431SQ20131012830

　　出版日期 2013 年 7 月 24 日申请日期 2013 年 4 月 10 日优先权日期 2013 年 4 月 10 日

　　发明人张伟、金军、吴扬子、姜燕申请人：金军、姜燕

0

2021-08-06

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

中国现已有网民4.85亿各类站点域名130余万个爆炸

0 个评论

发起人