Python爬虫的实用解释: 分析某些东部产品评论信息的采集过程

优采云发布时间: 2020-08-08 15:12

　　如果要提取其他字段信息，可以在代码中自己添加.

　　搜索界面

　　一个，界面搜索

　　搜索以食物为例，输入食物并点击搜索

　　继续向下滚动以查看产品的返回页数，这是最大返回100页信息

　　打开调试，清除请求内容，然后根据上面发现的查找注释界面的方法直接单击第二页以观察新请求.

　　当我单击红色框中的s_new界面时，我发现响应信息是html，并且响应的内容恰好是我们在页面上所需的产品信息.

　　第二，参数搜索

　　类似地，根据向下滑动，翻页以查看参数的更改

　　单击页面的第二页，参数如下

　　页面上有很多产品显示信息，并且可能会临时加载请求. 如果继续向下滚动，则可以看到已添加了新请求. 请求参数如下，并增加了参数. （注意: 新参数可以忽略）

　　然后单击第三页

　　如果找不到规则，则可以继续单击页面以查看更改规则.

　　接口参数的构造逻辑有以下几点:

　　三，html页面分析

　　直接在页面上找到产品位置，您可以看到所有产品信息都在ul标签下的li标签中

　　单击li标签，您可以看到div / div下的标签收录产品标题信息，产品链接信息，并且该链接收录我们需要提取的product_id信息. 右键单击以复制并复制xpath以直接提取位置信息.

　　四个代码测试

　　代码如下. 请注意，在标头中，referer参数需要进行url编码.

　　执行结果如下:

　　这里仅提取了两个字段title和product_id，并且可以根据需要添加它们.

　　本文中的文字和图片来自Internet，仅用于学习和交流目的. 它们没有任何商业用途. 版权属于原创作者. 如有任何疑问，请及时与我们联系进行处理.

　　作者: 习惯u

0

2020-08-08

文章采集接口

0 个评论

要回复文章请先登录或注册