java爬虫抓取网页数据(网络爬虫是做什么的?他的主要工作原理是什么)
优采云 发布时间: 2021-11-27 04:22java爬虫抓取网页数据(网络爬虫是做什么的?他的主要工作原理是什么)
一、 网络爬虫是做什么的?他的主要工作是根据指定的url地址发送请求,得到响应,然后解析响应。一方面从响应中找到你要查找的数据,另一方面从响应中解析出新的URL路径,然后继续访问,继续解析;继续寻找需要的数据,继续解析新的URL路径。
一个简单爬虫的必要功能:
1:发送请求和获取响应的功能;
2:解析响应的功能;
3:存储过滤数据的功能;
4:处理解析出的URL路径的功能;
二、 爬取对象分类
静态网页:可以通过 URLConnection 获取页面的所有数据。这种方法比较简单。你只需要建立一个URLConnection来请求页面数据,然后通过正则表达式获取相关数据即可。
动态网页:网页的部分或全部数据通过js动态展示,不能通过URLConnection直接获取。这时候就需要用到HtmlUnit工具了。这个工具是一个无界面的浏览器,可以模拟浏览器的操作。这个工具,加载网页后,获取页面数据进行分析,然后就可以抓取数据了
三、本文内容
四、总结:
静态网页数据可以通过上述代码获取,只需要通过正则表达式截取有用的信息,本文不再赘述。