java爬虫抓取动态网页(HTML解析：Jsoup基本思路(组图)线程(图))

优采云发布时间: 2021-09-23 02:11

　　html分析：jsoup

　　基本思想

　　网络爬行动物的基本思想是爬网线程从URL队列中获取URL - ＆gt;模拟浏览器对目标URL的请求 - ＆gt;下载Web内容返回 - ＆gt;然后在页面上，请将目标数据获取到相应的存储 - ＆gt;然后获取将从当前抓取的网页中攀爬的URL，具有一定的规则。

　　当然，上述思想基于爬行过程。没有必要模拟登录，网站非常友好，而不是做一些“反攀爬”的工作，然而，在现实中，仿真登录有时非常重要（如新浪微博）;没有反攀爬网站也少，当频繁访问时，可能是冻结的帐户，密封IP，返回“系统繁忙”“请慢慢访问”和其他信息。因此，有必要加强爬行动物来增强爬行动物：增加转世信息的处理，动态切换帐户/ IP，访问时间延迟等。

　　编程

　　由于模拟登录模块的复杂性，并且不同网站实现的机制不相同，这里只给出一个原理图，其中主要分析不需要登录的爬行动物。

　　工作者：每个工人都是一个爬网线程，由主线程蜘蛛网创建

　　登录：爬网程序模拟登录模块，您可以设置帐户队列。帐户冻结后，将其放入队列的末尾并从头开始新帐户。再次登录。队列的长度是必需的，gt; =帐户冻结时间/每个帐户可以支持连续攀爬时间

　　获取器：爬行动物模拟浏览器发出Get URL请求，下载页

　　处理程序：在获取器下载的页面上的初步处理，如果确定页面的返回状态代码是否正确，页面内容是反升温器等，以便为解析器付费的页面是正确

　　解析器：通过fetcher下载的页面内容的分辨率，获取目标数据

　　store：将解析器解析的目标数据放入本地存储，这可以是MySQL传统数据库或Redis等.KV存储

　　抓取队列：URL

　　需要放置

　　钳位：URL

　　已被捕获

　　程序流程图

　　以下是爬行动物实现的流程图。图中的绿色框位于同一模块中，模块名称由红色字符表示。

　　代码实现

　　将于明天开始上学，加上实验室的任务，没有时间写作，写一个比较水，蚀地点，可能意识到上面的流程图，许多地方都需要根据具体攀爬，真诚地实现方案来实现笔记，真诚的希望包装美丽的观点。

　　丑陋的妻子即将到来。点我很丑＆gt; _

0

2021-09-23

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页(HTML解析：Jsoup基本思路(组图)线程(图))

0 个评论

发起人