java爬虫抓取网页数据(谷歌浏览器访问网站的知识点:设置代理http请求)
优采云 发布时间: 2022-04-10 20:03java爬虫抓取网页数据(谷歌浏览器访问网站的知识点:设置代理http请求)
java爬虫抓取网页数据的方法有很多,今天我们先讲一个爬取网页尾部数据的,不需要访问任何网站就可以找到,而且效率相当高。我们先从一个网页,获取到网页首页所有pic的链接,然后替换到当前我们所在页面。如果不会用谷歌浏览器访问网站,那就用我们现在用的谷歌浏览器访问。具体如下所示:第一步:对爬虫系统进行模拟请求,所以首先需要使用科学上网。
爬虫系统请求某网站时候会对某一个http请求进行代理设置。由于是实时抓取,所以设置了代理ip地址,代理a是虚拟机的ip,可通过科学上网来访问网站。代理b是浏览器的代理ip。实现代理抓取的思路是,在本机上配置好代理,当代理请求本机时候,实现代理抓取。第二步:获取爬虫系统的请求代理,可以使用模拟器访问,也可以使用浏览器访问。
如果使用浏览器访问可以使用抓包工具抓取到http请求的headers。第三步:在java自带swing程序中,进行抓取编程,请求页面首页链接(如图2-4所示),本机获取到http代理代理b所在的虚拟机ip地址,然后替换到当前页面即可。图2-4抓取首页http页面源码图2-5抓取首页http页面源码该例子爬取到jpz.sr-261网站的页面,时间是2014年9月23日。
那么我们来回顾一下今天的知识点:设置代理,http请求,代理请求,抓取首页http页面。我们来看看今天我们学了什么知识点。代理代理ip地址:@httpserver@httpserver#proxyhost""#ip爬虫爬虫系统设置为使用客户端自身的浏览器访问首页查看抓取结果,因为爬虫是即时抓取,所以可能会抓取很多页面数据。
使用浏览器访问网站抓取页面通过设置登录名和密码,登录用户账号cookie和密码获取页面中抓取到的http请求的headers即可。下次我们会继续分享一些实战知识。