采集 工具 爬虫和爬虫之小游戏的朋友应该知道的一些事

优采云 发布时间: 2021-08-10 06:04

  采集 工具 爬虫和爬虫之小游戏的朋友应该知道的一些事

  采集工具,就是通过网络上的各类资源,分析出各类资源的相关信息。然后在到百度上搜索相关信息。作为使用者的我们,掌握了相关工具,就可以挖掘出更多的信息去分析搜索。对于网络爬虫来说,就可以获取想要的很多资源。看过我写的爬虫和爬虫之小游戏的朋友应该都知道我是用python写的。其实刚接触爬虫的时候,我用过flask语言,但是并没有我想象的有多难用。

  爬虫分为文件抓取和网页抓取,分别简单阐述一下文件抓取和网页抓取。文件抓取就是把网页中的文字,图片,视频等,采集下来之后,再推送到对应的目录。网页抓取则是,拿到一个网页之后,分析它的结构,找到相关的url,然后在这个url上面获取内容,然后推送到目录。文件抓取可以采用列表或者表格的方式去抓取,每抓取一个文件就存到一个列表里面。

  也可以直接用requests这个库去请求网页。网页抓取可以采用requests库,也可以采用正则表达式去抓取。requests库有很多的requests库,我们就只采用它用的最多的方式。网页抓取我们可以采用phantomjs这个库,这个库可以用来抓取页面中的flash*敏*感*词*,网页编程。也可以用来抓取页面的api,比如说的分享,推荐,公众号的消息等等。

  如果我们想完全爬取网页中的所有的api消息,那么我们应该用到一个框架flask,如果我们只用flask的话,我们可以采用django,pylons,tornado。django因为代码少,而且代码逻辑简单,我们还可以完全避免用正则表达式,用户自己来写,所以代码很简单。django对数据库支持比较好,我们只需要配置好环境变量,数据库我们不需要用geo,float等元数据。

  flask代码很简单,我们只需要配置好admin即可。如果我们想爬取一个新浪的消息,不仅要爬取它的分享,还要爬取它的推荐这一项目中的消息,这样的话,我们就可以采用django框架的话,那么我们只需要采用django中的postgisconnect这个框架。如果我们爬取一个新浪的这个消息,还要爬取一个新浪的公众号的话,那么我们可以采用django框架的话,我们只需要采用postgisconnect库的这个点登录url就可以。

  同时我们还可以分析新浪这个公众号的消息推送。同样,如果我们想爬取一个图片,比如说一张阿里巴巴的图片,我们只需要知道怎么爬取一个阿里巴巴的页面,那么我们只需要用flask框架去爬取即可。flask框架的话,我们采用到的包含bootstrap中的bootstrap、django、backend、urllib三个库。

  每一个库的功能都差不多,都是处理相同的事情。当然,也可以采用其他的框架,但是要注意,每一个框架其实是一个模板引。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线