网页采集器的自动识别算法(搜索引擎盲点,本文网页采集技术)
优采云 发布时间: 2021-12-26 17:10网页采集器的自动识别算法(搜索引擎盲点,本文网页采集技术)
[摘要]:随着搜索引擎的广泛应用,网页采集技术得到了突飞猛进的发展。网页采集是搜索引擎工作流程的第一站,采集页面的质量将直接影响搜索引擎的查询服务质量。理想的情况是采集
与用户视觉信息(Coherent with Users' Vision Information,CUVI)一致的页面。这个概念一直是搜索引擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为目的,设计并实现了一个网页采集系统。抓取一个CUVI页面首先需要进行网页重定向的处理操作,这是页面中JavaScript程序的主要功能之一。在本文中,采集系统通过在采集系统设计中引入JavaScript分析,在很大程度上解决了采集CUVI页面的问题。本文主要内容分为两部分:JavaScript分析与采集系统设计与实现。在JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据的调查分析,得出JS程序在HTML文档中的功能分布。然后,根据集合系统对JavaScript解析的需求,设计并实现了一个简单的JS解析器——JSParser。最后通过实验验证了JSParser在性能和功能上都能满足本文采集
系统的要求。本文中的采集系统由采集器和控制器两个模块组成。在采集
器的设计上,创新性地引入了页面分析功能,结合JSParser的使用,实现了采集
CUVI页面的初衷;在实现上,采用了EPOLL技术,解决了采集器对高并发的要求。控制器维护一个站点IP FIFO(Fist In FistOut)队列,更好的解决了采集系统对IP和站点的抓包压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。在采集
器的设计上,创新性地引入了页面分析功能,结合JSParser的使用,实现了采集
CUVI页面的初衷;在实现上,采用了EPOLL技术,解决了采集器对高并发的要求。控制器维护一个站点IP FIFO(Fist In FistOut)队列,更好的解决了采集系统对IP和站点的抓包压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。在采集
器的设计上,创新性地引入了页面分析功能,结合JSParser的使用,实现了采集
CUVI页面的初衷;在实现上,采用了EPOLL技术,解决了采集器对高并发的要求。控制器维护一个站点IP FIFO(Fist In FistOut)队列,更好的解决了采集系统对IP和站点的抓包压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。达到采集
CUVI页面的初衷;在实现上,采用了EPOLL技术,解决了采集器对高并发的要求。控制器维护一个站点IP FIFO(Fist In FistOut)队列,更好的解决了采集系统对IP和站点的抓包压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。达到采集
CUVI页面的初衷;在实现上,采用了EPOLL技术,解决了采集器对高并发的要求。控制器维护一个站点IP FIFO(Fist In FistOut)队列,更好的解决了采集系统对IP和站点的抓包压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。更好的解决了采集系统对IP和站点的抓取压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。更好的解决了采集系统对IP和站点的抓取压力控制,使采集器和互联网可以很好的协同工作。通过对系统的各种测试,发现引入JSParser对系统性能没有明显影响,系统在IP充足的情况下运行良好。