java抓取网页数据( 03环境部署要编写代码，首先得部署环境(图))

优采云发布时间: 2021-12-22 06:09

　　java抓取网页数据(

03环境部署要编写代码，首先得部署环境(图))

　　（知乎里面的视频可能看不清楚，可以通过公众号下载原视频查看，我已经上传了，链接在留言区）

　　03 环境部署

　　要编写代码，您必须首先部署环境。这里二发录制了一个小视频教大家如何部署环境：

　　视频中提到，二发已经把环境依赖的所有库都打包好了，可以直接使用，不要忘记Build Path。

　　04 爬虫介绍&代码解释

　　在接下来的视频中，二发将给大家简单介绍一下爬虫的工作原理，然后讲解这200行代码是如何工作的。

　　看完上面的视频，大家都开始爬了。除了冯小刚的微博，你还可以抓取任何你想要的内容，比如马蓉的微博。

　　尔胖有话要说

　　二发开始学习爬虫的时候用的是WebCollector，因为当时不会Python，只写了一点Java，所以二发就用Java来启动爬虫。

　　不过在用户体验上，Python 稍微方便一些。与Java相比，Python可以用更短的代码实现同样的功能。

　　但是，Java 的性能优于 Python。

　　现在爬虫基本都是多线程的，Python的多线程和Java的多线程模型有些不同。对于多核计算机，Python线程只使用一个核，不同的用户线程总是在一个核上进行上下文切换。其他内核空闲。这就是 N:1 线程模型。

　　就像下图一样：

　　而Java的多线程模型是真正的多核模型，即每个CPU核都在忙碌。

　　当然，如果你不明白，也没有问题。可以继续关注二发。以后的日子，二发会慢慢和大家分享。

　　对于爬虫来说，在大多数情况下，限制爬取速度的瓶颈不是CPU核数，而是网络延迟和等待时间，所以对于个人爬虫来说，Python和Java没有太大区别。

　　本文所涉及的代码、视频和github地址放在公众号后台，搜索微信公众号“逆袭二胖”回复“冯小刚”即可获取。

0

2021-12-22

java抓取网页数据

0 个评论

要回复文章请先登录或注册