java抓取网页数据( 03环境部署要编写代码,首先得部署环境(图))

优采云 发布时间: 2021-12-22 06:09

  java抓取网页数据(

03环境部署要编写代码,首先得部署环境(图))

  

  (知乎里面的视频可能看不清楚,可以通过公众号下载原视频查看,我已经上传了,链接在留言区)

  03 环境部署

  要编写代码,您必须首先部署环境。这里二发录制了一个小视频教大家如何部署环境:

  

  视频中提到,二发已经把环境依赖的所有库都打包好了,可以直接使用,不要忘记Build Path。

  04 爬虫介绍&代码解释

  在接下来的视频中,二发将给大家简单介绍一下爬虫的工作原理,然后讲解这200行代码是如何工作的。

  

  看完上面的视频,大家都开始爬了。除了冯小刚的微博,你还可以抓取任何你想要的内容,比如马蓉的微博。

  尔胖有话要说

  二发开始学习爬虫的时候用的是WebCollector,因为当时不会Python,只写了一点Java,所以二发就用Java来启动爬虫。

  不过在用户体验上,Python 稍微方便一些。与Java相比,Python可以用更短的代码实现同样的功能。

  但是,Java 的性能优于 Python。

  现在爬虫基本都是多线程的,Python的多线程和Java的多线程模型有些不同。对于多核计算机,Python线程只使用一个核,不同的用户线程总是在一个核上进行上下文切换。其他内核空闲。这就是 N:1 线程模型。

  就像下图一样:

  

  而Java的多线程模型是真正的多核模型,即每个CPU核都在忙碌。

  当然,如果你不明白,也没有问题。可以继续关注二发。以后的日子,二发会慢慢和大家分享。

  对于爬虫来说,在大多数情况下,限制爬取速度的瓶颈不是CPU核数,而是网络延迟和等待时间,所以对于个人爬虫来说,Python和Java没有太大区别。

  本文所涉及的代码、视频和github地址放在公众号后台,搜索微信公众号“逆袭二胖”回复“冯小刚”即可获取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线