文章采集调用(1.用python爬取代理批量采集实现方法：anyproxy+js)

优采云发布时间: 2022-04-11 13:02

　　微信公众号文章爬取方法整理1.用python爬取

　　php

　　实现方法：通过微信提供的公众号文章调用接口，实现抓取公众号文章html的功能

　　步骤：java

　　1.需要安装python selenium模块包，使用selenium中的webdriver驱动浏览器获取cookies，达到登录的效果；Python

　　2.使用webdriver功能需要安装对应浏览器的驱动插件。我在这里使用谷歌浏览器进行测试：

　　谷歌浏览器版本是 52.0.2743.6 ；

　　chromedriver版本为：V2.23

　　注意：谷歌浏览器版本和chromedriver需要对应，否则启动时会报错。【附：selenium的chromedriver和chrome版本映射表（更新为v2.30)）】web

　　3.微信公众号登录地址：chrome

　　4.微信公众号文章界面地址可以在微信公众号后台创建图文信息，从超链接函数中获取：数据库

　　5.搜索公众号api

　　6.获取要爬取公众号的fakeid浏览器

　　7.选择要爬取的公众号，获取文章接口地址微信

　　8.文章列表翻页和内容获取

　　2.AnyProxy 代理批量采集

　　实现方式：anyproxy+js

　　实现方式：anyproxy+java+webmagic

　　3.FiddlerCore

　　实现方式：抓包工具，Fiddler4

　　经过多个账号的抓包分析，可以确认：

　　_biz:这个14位的字符串是每一个公众号的“id”，搜狗的微信平台能够得到

uin:与访问者有关，微信号id

key:和所访问的公众号有关

　　步：

　　1、编写按钮向导脚本，在手机端自动点击公众号文章的列表页面，即“查看历史消息”；

　　2、使用fiddler代理劫持手机访问，将URL转发到php编写的本地网页；

　　3、将接收到的URL备份到php网页上的数据库中；

　　4、使用python从数据库中检索URL，然后进行正常爬取。

　　在爬升过程中发现了一个问题：

　　如果只是想爬文章的内容，貌似没有访问频率限制，但是如果你想爬读点赞数，达到一定频率后，返回值会变成null，我设置的时间间隔为10秒，可以正常取到。在这个频率下，一个小时只能取到 360 条，没有实际意义。

　　4.青波新榜

　　如果你只是想看数据，你可以不花钱只看每日清单。如果你需要访问自己的系统，他们也提供了一个api接口

0

2022-04-11

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用(1.用python爬取代理批量采集实现方法：anyproxy+js)

0 个评论

发起人

AI时代内容工厂

文章采集调用(1.用python爬取代理批量采集实现方法：anyproxy+js)

0 个评论

发起人

相关问题