完整解决方案:数据采集系统与DCS多项目软件包的使用与优化.pdf

优采云 发布时间: 2022-11-04 15:17

  完整解决方案:数据采集系统与DCS多项目软件包的使用与优化.pdf

  下载说明:

  1、本站所有资源均由百度网盘共享提供下载。下载前请先注册百度网盘账号;

  

  2.点击【付费下载】后会跳转到百度网盘分享链接,输入解压码,即可解压文件;

  3、本站所有资源统一提取码为:JSZL(输入时不区分大小写,也可在支付下载按钮旁边一键复制);

  4、本站所有工程技术资料仅供个人学习,不得用于其他商业用途;

  

  5、本站提供的技术资料均来自互联网。如相关信息侵犯您的版权权益,请及时联系我们删除;

  6、本站积分可通过每天登录、签到获得。网站右侧的浮动栏上有一个登录按钮;

  7.更多问题请见:

  解决方法:一种能识别网页信息自动采集的系统与方法

  专利名称:一种自动采集识别网页信息的系统及方法

  技术领域:

  本发明涉及网页动态分析技术领域,具体涉及一种网页信息自动识别系统及方法。

  背景技术:

  随着互联网的发展,出现了越来越多的互联网网站,形式层出不穷,包括新闻、博客、论坛、SNS、微博等。根据CNNIC今年的最新统计,中国现有网民4.85亿,各类网站域名超过130万个。在互联网信息爆炸的今天,搜索引擎已经成为人们查找互联网信息的最重要工具。搜索引擎主要自动抓取网站信息,进行预处理,分词后建立索引。输入搜索词后,搜索引擎可以自动为用户找到最相关的结果。经过十多年的发展,搜索引擎的技术已经比较成熟,并且因为有成功的商业模式可以借鉴,所以吸引了很多互联网厂商进入,比较有名的有百度、谷歌、搜搜、搜狗、有道、奇虎360等。此外,在一些垂直领域也有搜索引擎领域(如旅游、机票、比价等),已进入千余家厂商。搜索引擎的第一步也是最重要的一步是信息抓取,这是搜索引擎的数据准备过程。具体流程如图1所示。URL DB存储了所有要爬取的URL。URL 调度模块从 URL DB 中选择最重要的 URL,并将它们放入 URL 下载队列。页面下载模块下载队列中的 URL。下载完成后,提取模块提取下载的页面代码的文本和URL,将提取的文本发送到索引模块进行分词和索引,并将URL放入URL DB。信息采集的过程就是把别人的网站信息提取到自己的信息库中的过程,会出现一些问题。

  1、互联网信息每时每刻都在增加,因此信息获取是一个7*24小时不间断的过程。频繁爬取会给目标网站带来巨大的访问压力,导致DDOS拒绝服务攻击,导致无法为普通用户提供访问。这在中小型 网站 中尤为明显。这些网站@网站的硬件资源比较差,技术力量也不强,网上90%以上都是这种网站。例如:某知名搜索引擎因频繁爬取某网站而引发用户投诉。2.部分网站信息有隐私或版权,很多网页收录后台数据库、用户隐私、密码等信息。网站 赞助商不希望这些信息被公开或无偿使用。大众点评网曾起诉爱帮网在其网站上获取评论信息并将其发布到自己的网站上。目前搜索引擎网页反采集的主流方法是robots协议协议,网站通过一个robots,txt协议来独立控制自己的内容是否愿意被搜索通过搜索引擎收录,并允许哪些搜索引擎收录,并指定自己的收录和禁止的收录内容。同时,搜索引擎会自觉地根据各个网站Robots协议赋予它们的权限进行爬取。该方法假设的搜索引擎爬取过程如下:下载网站 robots文件-根据robots协议解析文件-获取要下载的URL-确定URL所在的访问权限-根据判断结果决定是否抓取。Robots 协议是没有任何绑定限制的绅士协议。爬取的主动权仍然完全由搜索引擎端控制,完全可以不遵循这个协议强制爬取。

  例如,2012年8月,国内某知名搜索引擎因未按照该协议抓取百度网站内容而被百度批评。另一种anti采集的方法主要是利用动态技术来构造禁止爬取的网页。该方法使用客户端脚本语言(如JS、VBScript、AJAX)动态生成网页显示信息,从而实现信息隐藏。使传统搜索引擎难以获取 URL 和正文内容。动态网页构建技术只是增加了网页解析和提取的难度,并不能从根本上禁止采集和网页信息的解析。目前一些高级搜索引擎可以模拟浏览器来实现所有的脚本代码。解析,获取所有信息的网络URL,从而获取存储在服务器中的动态信息。已经有成熟的网页动态解析技术,主要是解析网页中的所有脚本代码段,然后获取网页的所有动态信息(包括有用信息和垃圾信息)。实际实现过程以开源脚本代码解析引擎(如Rhino、V8等)为核心,搭建网页脚本解析环境,然后提取网页中的脚本代码段,将提取的代码段放入用于解析的网页脚本解析环境。,它返回动态信息。解析过程如图2所示,

  

  发明内容

  本发明的目的在于提供一种能够自动采集识别网页信息的系统和方法,以克服现有技术的不足。采集分类器识别机器人的自动采集,通过对自动机器人采集的识别实现网页的反爬。本发明采用的技术方案如下:一种网页信息采集自动识别系统及方法,包括反采集分类器构建模块、自动采集识别模块和反采集识别模块。 采集在线处理模块,反采集分类器构建模块,该模块主要用于使用计算机程序自动学习和区分历史网页信息采集和正常网页访问行为,该模块为自动采集识别提供训练模型,自动采集识别模块,主要通过加载一个自动分类器,自动识别搜索引擎程序的自动采集行为,并将识别出的采集程序所在的IP段添加到黑名单,用于后续在线拦截自动采集行为。防采集在线处理模块,该模块主要用于对访问用户进行自动在线判断和处理。如果访问者的IP已经在IP段黑名单中,该 IP 将被拒绝访问;否则,访问请求将被转发到 Web 服务器进行进一步处理。所述的反采集分类器构建模块实现方法具体包括以下步骤: (5)日志解析子模块通过对站点访问日志的自动分析,获取用户的访问行为信息,包括用户访问网站使用IP、访问发生时间、访问网址、来源网址;样本选择子模块选择步骤1中的分析数据记录,依据是在连续一段时间内同一IP段的访问频率最高的数据记录作为候选数据加入样本集中; 访问统计子模块对选中的样本数据进行统计,

  所述的自动采集识别模块实现方法包括以下步骤: (5)识别程序初始化阶段,完成分类器模型的加载,该模型可以判断自动采集行为;(6)日志解析程序解析最新的网站访问日志,并将解析后的数据发送给访问统计模块;(7)访问统计模块计算同一IP段的平均页面停留时间、采集网页是否附加信息和网页采集频率;(8)分类器根据分类模型判断IP段的访问行为,将判断为程序自动采集行为的IP段加入黑名单;采集在线处理模块实现方法,包括以下步骤: (1)对于Web服务器上交的访问请求,提取访问者的IP信息;(2)对比黑名单库中的IP信息,如果该IP已经在黑名单中,则通知Web服务器拒绝对该IP的访问;否则,通知Web服务器正常处理访问请求。与现有技术相比,本发明的有益效果是:本发明的系统通过分析网站的历史网页访问行为,建立自动的采集分类器,识别出自动的采集分类器。 采集的机器人。>,通过自动机器人采集识别,网页反爬,自动发现搜索引擎网页的采集行为,屏蔽其<

  图1是现有技术的搜索引擎信息爬取过程*敏*感*词*;图2是现有技术的第二种分析过程*敏*感*词*。图3是本发明的反采集分类器构建块的*敏*感*词*;图4是本发明的自动采集识别模块图;图5显示了本发明的anti采集在线处理模块。

  搜索引擎程序的行为。将采集程序所在IP段加入黑名单,该黑名单用于后续在线拦截自动采集行为。反采集在线处理模块主要用于对访问用户进行自动在线判断和处理。如果访问者的IP已经在IP段黑名单中,该IP将被拒绝访问;否则,访问请求将被转发到 Web 服务器以继续处理。所述的反采集分类器构建模块实现方法具体包括以下步骤: (9)日志解析子模块通过自动解析站点访问日志获取用户的访问行为信息,包括用户访问网站使用的IP、访问发生时间,访问的URL,来源URL;样本选择子模块选择步骤1中的分析数据记录,依据是在连续一段时间内同一IP段的访问频率最高的数据记录作为候选数据加入样本集中; 访问统计子模块对选中的样本数据进行统计,统计同一IP段的平均页面停留时间、访问站点的总页数、是否有采集页面附件信息、页面采集

  (10)以IP段为主要关键字,将上述信息存储在样本库中,并标记为未标记;(11)对步骤(1)中未标记的样品进行标记,如果确定该样品为机器自动采集,则标记为I;如果用户浏览器正常访问,则标记为0,并将所有标记的样本更新到数据库中;(12)计算机程序自动学习样本库,生成分类模型,供以后自动采集识别。所述的自动采集识别模块实现方法包括以下步骤: (9)识别程序初始化阶段,完成分类器模型的加载,该模型可以判断自动采集行为;(10)日志解析程序解析最新的网站访问日志,将解析后的数据发送给访问统计模块;(11)访问统计模块计算同一IP段的平均页面停留时间,采集网页是否附有信息,网页采集频率;(12)分类器根据分类模型判断IP段的访问行为,将判断为程序自动采集行为的IP段加入黑名单;采集在线处理模块实现方法,包括以下步骤: (1)对于web服务器上交的访问请求,提取访问者的IP信息;(2)对比黑名单库中的IP信息,如果该IP已经在黑名单中,则通知Web服务器拒绝对该IP的访问;否则,通知Web服务器正常处理访问请求。构建该模块的反采集分类器主要用于训练计算机程序,使其能够自动学习和区分历史网页信息采集和正常的网页访问行为,该模块可用于后续自动采集识别提供训练模型。具体包括以下步骤。2.2.1.1 日志解析 该模块需要解析服务器的历史访问日志(可以选择某一天的日志),提取并获取用户的访问行为信息,包括用户访问使用的IP网站 , 访问时间, 访问 URL, 源 URL。具体包括以下两个步骤:(1) 为每个要提取的用户访问信息项写一个正则表达式。IP表达式提取正则表达式定义为:

  权利请求

  黑名单用于后续在线拦截自动采集行为。anti采集在线处理模块主要用于对被访问用户进行自动在线判断和处理,如果访问者的IP已经在IP段黑名单中,则拒绝该IP访问;否则,访问请求将被转发到 Web 服务器以继续处理。

  

  2.根据权利要求1所述的一种可识别网页信息的反爬虫系统及方法,其特征在于:所述的反采集分类器构建模块实现方法具体包括如下步骤: (1)日志解析子模块通过站点访问日志的自动解析获取用户的访问行为信息,包括用户访问网站所使用的IP、访问时间、访问的URL、来源URL;样本选择子模块到步骤1。根据连续一段时间内同一IP段的访问频率最高的数据记录选择分析数据记录作为待加入样本集的候选数据。访问统计子模块对选中的样本数据进行统计,统计同一IP段。(2)以IP段为主要关键字,将上述信息存入样本数据库,并标记为未标记;(3)对步骤(I)中未标记的样品进行标记,如果确定该样品为机器自动采集,则标记为I;如果用户浏览器正常访问,则将其标记为O,并将所有标记的样本更新到数据库中;(4)计算机程序自动学习样本数据库,生成分类模型,用于后期自动采集识别。并将所有标记的样本更新到数据库中;(4)计算机程序自动学习样本数据库,生成分类模型,用于后期自动采集识别。并将所有标记的样本更新到数据库中;(4)计算机程序自动学习样本数据库,生成分类模型,用于后期自动采集识别。

  3.根据权利要求1所述的一种可识别网页信息的反爬系统及方法,其特征在于:所述自动识别模块实现方法包括如下步骤: (1)识别程序初始化阶段,完成分类器的加载模型,模型可以判断自动采集行为;(2)日志解析程序解析最新的网站访问日志,并将解析后的数据发送到访问统计Wu块;(3)访问统计模块计算同一IP段的平均页面停留时间,是否是采集网页附件信息,网页采集频率;(4) 分类器是根据这个IP段的分类模型来确定程序的访问行为,

  4.根据权利要求1所述的一种可识别网页信息的反爬网系统及方法,其特征在于:所述的反采集在线处理模块实现方法,包括以下步骤: (1)用于访问Web服务器转发的请求,提取访问者的IP信息;(2)对比黑名单数据库中的IP信息,如果该IP已经在黑名单中,则通知Web服务器拒绝该IP的访问;否则,通知Web服务器正常处理访问请求。

  全文摘要

  本发明公开了一种采集自动识别网页信息的系统和方法,包括反采集分类器构建模块、自动采集识别模块和在线反采集处理模块模块,反采集分类器构建模块主要用于使用计算机程序自动学习和区分历史网页信息采集和正常网页访问行为,自动识别采集模块,并通过使用上述步骤中的anti采集分类器自动识别搜索引擎程序的自动采集行为,并将识别出的采集程序所在的IP段添加到黑名单。反采集 在线处理模块主要用于自动判断和处理在线访问的用户。本发明克服了现有技术的不足。系统通过分析网站的历史网页访问行为建立自动采集分类器,识别机器人自动采集,通过自动机器人采集@采集识别,实现网页反爬。

  文件编号 G06F17/30GK103218431SQ20131012830

  公布日期 2013 年 7 月 24 日 申请日期 2013 年 4 月 10 日 优先权日期 2013 年 4 月 10 日

  发明人张伟、金军、吴扬子、姜岩申请人:金军、姜岩

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线