java爬虫抓取动态网页(HTML解析:Jsoup基本思路(组图)线程(图))

优采云 发布时间: 2021-09-23 02:11

  java爬虫抓取动态网页(HTML解析:Jsoup基本思路(组图)线程(图))

  html分析:jsoup

  基本思想

  网络爬行动物的基本思想是爬网线程从URL队列中获取URL - >模拟浏览器对目标URL的请求 - >下载Web内容返回 - >然后在页面上,请将目标数据获取到相应的存储 - >然后获取将从当前抓取的网页中攀爬的URL,具有一定的规则。

  当然,上述思想基于爬行过程。没有必要模拟登录,网站非常友好,而不是做一些“反攀爬”的工作,然而,在现实中,仿真登录有时非常重要(如新浪微博);没有反攀爬网站也少,当频繁访问时,可能是冻结的帐户,密封IP,返回“系统繁忙”“请慢慢访问”和其他信息。因此,有必要加强爬行动物来增强爬行动物:增加转世信息的处理,动态切换帐户/ IP,访问时间延迟等。

  编程

  由于模拟登录模块的复杂性,并且不同网站实现的机制不相同,这里只给出一个原理图,其中主要分析不需要登录的爬行动物。

  

  工作者:每个工人都是一个爬网线程,由主线程蜘蛛网创建

  登录:爬网程序模拟登录模块,您可以设置帐户队列。帐户冻结后,将其放入队列的末尾并从头开始新帐户。再次登录。队列的长度是必需的,gt; =帐户冻结时间/每个帐户可以支持连续攀爬时间

  获取器:爬行动物模拟浏览器发出Get URL请求,下载页

  处理程序:在获取器下载的页面上的初步处理,如果确定页面的返回状态代码是否正确,页面内容是反升温器等,以便为解析器付费的页面是正确

  解析器:通过fetcher下载的页面内容的分辨率,获取目标数据

  store:将解析器解析的目标数据放入本地存储,这可以是MySQL传统数据库或Redis等.KV存储

  抓取队列:URL

  需要放置

  钳位:URL

  已被捕获

  程序流程图

  以下是爬行动物实现的流程图。图中的绿色框位于同一模块中,模块名称由红色字符表示。

  

  代码实现

  将于明天开始上学,加上实验室的任务,没有时间写作,写一个比较水,蚀地点,可能意识到上面的流程图,许多地方都需要根据具体攀爬,真诚地实现方案来实现笔记,真诚的希望包装美丽的观点。

  丑陋的妻子即将到来。点我很丑> _

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线