java爬虫抓取网页数据(网络爬虫是做什么的?他的主要工作原理是什么)

优采云发布时间: 2021-11-27 04:22

　　一、网络爬虫是做什么的？他的主要工作是根据指定的url地址发送请求，得到响应，然后解析响应。一方面从响应中找到你要查找的数据，另一方面从响应中解析出新的URL路径，然后继续访问，继续解析；继续寻找需要的数据，继续解析新的URL路径。

　　一个简单爬虫的必要功能：

　　1：发送请求和获取响应的功能；

　　2：解析响应的功能；

　　3：存储过滤数据的功能；

　　4：处理解析出的URL路径的功能；

　　二、爬取对象分类

　　静态网页：可以通过 URLConnection 获取页面的所有数据。这种方法比较简单。你只需要建立一个URLConnection来请求页面数据，然后通过正则表达式获取相关数据即可。

　　动态网页：网页的部分或全部数据通过js动态展示，不能通过URLConnection直接获取。这时候就需要用到HtmlUnit工具了。这个工具是一个无界面的浏览器，可以模拟浏览器的操作。这个工具，加载网页后，获取页面数据进行分析，然后就可以抓取数据了

　　三、本文内容

　　四、总结：

　　静态网页数据可以通过上述代码获取，只需要通过正则表达式截取有用的信息，本文不再赘述。

0

2021-11-27

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册