java抓取网页数据( 03环境部署要编写代码,首先得部署环境(图))
优采云 发布时间: 2021-12-22 06:09java抓取网页数据(
03环境部署要编写代码,首先得部署环境(图))
(知乎里面的视频可能看不清楚,可以通过公众号下载原视频查看,我已经上传了,链接在留言区)
03 环境部署
要编写代码,您必须首先部署环境。这里二发录制了一个小视频教大家如何部署环境:
视频中提到,二发已经把环境依赖的所有库都打包好了,可以直接使用,不要忘记Build Path。
04 爬虫介绍&代码解释
在接下来的视频中,二发将给大家简单介绍一下爬虫的工作原理,然后讲解这200行代码是如何工作的。
看完上面的视频,大家都开始爬了。除了冯小刚的微博,你还可以抓取任何你想要的内容,比如马蓉的微博。
尔胖有话要说
二发开始学习爬虫的时候用的是WebCollector,因为当时不会Python,只写了一点Java,所以二发就用Java来启动爬虫。
不过在用户体验上,Python 稍微方便一些。与Java相比,Python可以用更短的代码实现同样的功能。
但是,Java 的性能优于 Python。
现在爬虫基本都是多线程的,Python的多线程和Java的多线程模型有些不同。对于多核计算机,Python线程只使用一个核,不同的用户线程总是在一个核上进行上下文切换。其他内核空闲。这就是 N:1 线程模型。
就像下图一样:
而Java的多线程模型是真正的多核模型,即每个CPU核都在忙碌。
当然,如果你不明白,也没有问题。可以继续关注二发。以后的日子,二发会慢慢和大家分享。
对于爬虫来说,在大多数情况下,限制爬取速度的瓶颈不是CPU核数,而是网络延迟和等待时间,所以对于个人爬虫来说,Python和Java没有太大区别。
本文所涉及的代码、视频和github地址放在公众号后台,搜索微信公众号“逆袭二胖”回复“冯小刚”即可获取。