Python下的爬虫库--强烈推荐掌握的解析类
优采云 发布时间: 2021-05-10 05:06Python下的爬虫库--强烈推荐掌握的解析类
Python下的采集器库通常分为3类。
抢劫班
urllib(Python 3),这是Python随附的一个库,可以模拟浏览器请求并获取响应以进行分析。它提供了大量的请求方法,支持各种参数,例如Cookie,标头和许多采集器。该库基本上是基于该库构建的,因此建议对其进行学习,因为一些罕见的问题需要通过底层方法来解决。
基于urllib的请求,但更加方便和易于使用。强烈建议您精通。
分析课
re:官方的正则表达式库,不仅用于学习爬虫,而且还用于其他字符串处理或自然语言处理,这是一个不能被绕过的库,强烈建议您掌握它。
BeautifulSoup:易于使用,易于使用,建议掌握。通过选择器选择页面元素,然后获取相应的内容。
lxml:使用
lxml.etree
转换字符串后,我们可以使用XPath表达式来解析网页,这是最终的建议。 XPath对网页解析的支持非常强大且易于使用。它最初是为XML元素选择而设计的,但它也支持HTML。
pyquery:另一个强大的解析库,如果您有兴趣,可以学习它。
综合课
selenium:WYSIWYG采集器,它集成了搜寻和解析的两个功能,提供了一站式解决方案。许多动态网页不容易直接通过请求进行抓取和抓取。例如,某些URL附带加密的随机数。这些算法不容易破解。在这种情况下,只能通过直接访问URL,模拟登录等方式来请求它们。页面源代码,直接从页面元素中解析内容。在这种情况下,硒是最佳选择。但是Selenium最初是为测试而设计的。强烈推荐。
scrapy:另一个采集器工件,适合于搜寻大量页面,甚至为分布式采集器提供了良好的支持。强烈推荐。
这些是我个人经常使用的库,但是还有许多其他值得学习的工具。例如,Splash还支持对动态网页的爬网; Appium可以帮助我们抓取App的内容; Charles可以帮助我们捕获数据包,无论是移动网页还是PC网页,都有很好的支持; pyspider也是一个全面的框架; MySQL(pymysql),MongoDB(pymongo),一旦捕获到数据就必须将其存储,并且无法绕过数据库。
掌握了以上内容之后,基本上大部分的采集器任务都不会困扰您!
您也可以关注我的头条帐户或个人博客,进行一些爬行动物共享。计数孔: