《豆瓣小组算法解析+实战》书籍推荐算法加分值（推荐）

优采云发布时间: 2022-07-11 15:00

　　php抓取网页内容。调用scrapy模块。通过指定的循环轮回框架进行抓取就好了，爬取一个页面后，就返回一个字典表示抓取的信息，例如你要抓取的是淘宝网，那么要传递给scrapy中的对象就是taobao，其中的taobao.url就是要爬取的链接。然后scrapy启动项目。

　　分享个豆瓣的爬虫项目地址：《豆瓣小组算法解析+实战》书籍推荐算法加分值（推荐度数）爬虫项目代码地址：《豆瓣小组算法解析+实战》

　　web抓取可以考虑使用lxml库，是一个异步的网络请求库，实现给网页另一端发起请求。关键的要点是要理解http协议（request-response）以及request函数。http协议比较简单，http2.0基本上不能支持多个request了，但是还是有很多应用场景可以使用http协议。（当然传统的网页爬虫是基于http协议）http协议最主要的特点是实现了对服务器进行tcp连接，使网页的传输可以提高效率，但是很容易受到服务器性能的限制。

　　而lxml就是一个libpng/bpf/beautifulsoup5这三个库的集合库。lxml提供了多个语法糖，允许使用xpaths标签对网页进行解析，这样服务器每次都会生成一堆标签给请求方，从而提高网页的传输性能。对网页进行解析的时候我们会提取出标签中的重要部分提取出来，比如豆瓣小组，我们找到每个分类或者类型下的电影名。

　　在我之前做的网页爬虫中，需要从网页中提取出豆瓣小组的电影名、小组名和小组介绍。最后提取出小组所在的分类。xpaths是lxml的核心，我在《python网络爬虫实战》中看到一本书就是叫《lxml2网络爬虫实战》。关于lxml怎么看和使用可以看《xpath掘金》。beautifulsoup5是lxml的强力补充，不仅仅增加了很多正则表达式的对象，而且使用正则表达式比lxml灵活的多。

　　beautifulsoup的官方文档有很详细的使用方法，每个参数也解释的很清楚。当然，最重要的是我在处理日志数据时使用到beautifulsoup。例如上文中提到我使用beautifulsoup处理日志数据后，在浏览器中我会观察到已经显示出网页的地址了。爬虫之后的日志数据还有成百上千。如果存在磁盘上，网站是有可能被黑产直接到他们服务器直接传播的。

　　这时候我们必须使用beautifulsoup处理日志。这是因为，我们的网站是可以暴露服务器端的，很可能黑产可以使用beautifulsoup把数据存下来然后到处传播。python是http协议的，所以能很轻松的做。但是不能到服务器上就不行了。我们必须使用lxml处理。我使用beautifulsoup来提取类型：这样我就能很轻松的通过正则表达式给到我想。

0

2022-07-11

php 抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

《豆瓣小组算法解析+实战》书籍推荐算法加分值（推荐）

0 个评论

发起人