爬虫框架是哪些？常见的Python爬虫框架有什么？

优采云发布时间: 2020-05-02 08:09

　　爬虫框架是哪些？常见的 Python 爬虫框架有什么？学习爬虫的人对爬虫框架并不陌生，在爬虫渐渐入门以后，可以有两个选择。一个是深入学习，比如设计模式相关的一些知识，强化 Python 相关知识，自己动手造轮子爬虫框架，继续为自己的爬虫降低分布式，多线程等功能扩充。另一条路便是学习一些优秀的框架，先把这种框架用熟，可以确保才能应付一些基本的爬虫任务，也就是可以解决基本的爬虫问题，然后再深入学习它的源码等知识，进一步加强。所以，爬虫框架就是前人积累出来的，可以满足自己爬虫需求，又可以以此提高自己的爬虫水平。那么，爬虫框架都有什么呢？常见 python 爬虫框架(1)Scrapy:很强悍的爬虫框架，可以满足简单的页面爬取（比如可以明晰得知 url pattern 的情况）。用这个框架可以轻松爬出来如亚马逊商品信息之类的数据。但是对于稍稍复杂一点的页面爬虫框架，如 weibo 的页面信息，这个框架就满足不了需求了。(2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导入为 JSON、 XML 等(3)Portia:可视化爬取网页内容(4)newspaper:提取新闻、文章以及内容剖析(5)python-goose:java 写的文章提取工具(6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载 JS。(7)mechanize:优点：可以加载 JS。缺点：文档严重缺位。不过通过官方的 example 以及人肉尝试的方式，还是勉强能用的。(8)selenium:这是一个调用浏览器的 driver，通过这个库你可以直接调用浏览器完成个别操作，比如输入验证码。(9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

0

2020-05-02

python python爬虫框架网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫框架是哪些？常见的Python爬虫框架有什么？

0 个评论

发起人