采集工具爬虫和爬虫之小游戏的朋友应该知道的一些事

优采云发布时间: 2021-08-10 06:04

　　采集工具，就是通过网络上的各类资源，分析出各类资源的相关信息。然后在到百度上搜索相关信息。作为使用者的我们，掌握了相关工具，就可以挖掘出更多的信息去分析搜索。对于网络爬虫来说，就可以获取想要的很多资源。看过我写的爬虫和爬虫之小游戏的朋友应该都知道我是用python写的。其实刚接触爬虫的时候，我用过flask语言，但是并没有我想象的有多难用。

　　爬虫分为文件抓取和网页抓取，分别简单阐述一下文件抓取和网页抓取。文件抓取就是把网页中的文字，图片，视频等，采集下来之后，再推送到对应的目录。网页抓取则是，拿到一个网页之后，分析它的结构，找到相关的url，然后在这个url上面获取内容，然后推送到目录。文件抓取可以采用列表或者表格的方式去抓取，每抓取一个文件就存到一个列表里面。

　　也可以直接用requests这个库去请求网页。网页抓取可以采用requests库，也可以采用正则表达式去抓取。requests库有很多的requests库，我们就只采用它用的最多的方式。网页抓取我们可以采用phantomjs这个库，这个库可以用来抓取页面中的flash*敏*感*词*，网页编程。也可以用来抓取页面的api，比如说的分享，推荐，公众号的消息等等。

　　如果我们想完全爬取网页中的所有的api消息，那么我们应该用到一个框架flask，如果我们只用flask的话，我们可以采用django，pylons，tornado。django因为代码少，而且代码逻辑简单，我们还可以完全避免用正则表达式，用户自己来写，所以代码很简单。django对数据库支持比较好，我们只需要配置好环境变量，数据库我们不需要用geo,float等元数据。

　　flask代码很简单，我们只需要配置好admin即可。如果我们想爬取一个新浪的消息，不仅要爬取它的分享，还要爬取它的推荐这一项目中的消息，这样的话，我们就可以采用django框架的话，那么我们只需要采用django中的postgisconnect这个框架。如果我们爬取一个新浪的这个消息，还要爬取一个新浪的公众号的话，那么我们可以采用django框架的话，我们只需要采用postgisconnect库的这个点登录url就可以。

　　同时我们还可以分析新浪这个公众号的消息推送。同样，如果我们想爬取一个图片，比如说一张阿里巴巴的图片，我们只需要知道怎么爬取一个阿里巴巴的页面，那么我们只需要用flask框架去爬取即可。flask框架的话，我们采用到的包含bootstrap中的bootstrap、django、backend、urllib三个库。

　　每一个库的功能都差不多，都是处理相同的事情。当然，也可以采用其他的框架，但是要注意，每一个框架其实是一个模板引。

0

2021-08-10

采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集工具爬虫和爬虫之小游戏的朋友应该知道的一些事

0 个评论

发起人

AI时代内容工厂

采集 工具 爬虫和爬虫之小游戏的朋友应该知道的一些事

0 个评论

发起人

相关问题

采集工具爬虫和爬虫之小游戏的朋友应该知道的一些事