文章采集调用(2.AnyProxy代理批量采集/24302048实现方法(一)_)
优采云 发布时间: 2021-09-04 08:03文章采集调用(2.AnyProxy代理批量采集/24302048实现方法(一)_)
1.Crawling with python/d1240673769/article/details/75907152
实现方法:通过微信提供的公众号文章调用接口,实现爬取公众号文章的功能
步骤:
1.需要安装python selenium模块包,使用selenium中的webdriver驱动浏览器获取cookie,达到登录效果;
2.使用webdriver功能需要安装相应的浏览器驱动插件。我在这里用谷歌浏览器测试:谷歌浏览器版本是52.0.2743.6; chromedriver 版本为:V 2.23 注意:Google Chrome 版本和chromedriver 需要对应,否则启动时会报错。 【附:selenium的chromedriver与chrome版本映射表(更新为v2.30)/huilan_same/article/details/51896672))
3.微信公众号登录地址:/
4.微信公号文章微信公众号后台可创建界面地址新建图文消息,可通过超链接功能获取:
5.搜索公众号
6.获取要爬取的公众号的fakeid
7.选择要爬取的公众号,获取文章interface地址
8.文章List翻页和内容获取
2.AnyProxy 代理批处理采集/p/24302048
实现方式:anyproxy+js
/luojiangwen/p/7943696.html
实现方式:anyproxy+java+webmagic
/t/181857
实现方式:抓包工具,Fiddler4
通过捕获和分析多个帐户,我们可以确定:
_biz:这个14位字符串是每个公众号的“id”,可在搜狗微信平台获取
uin:与访客相关,微信ID
key:与被访问的公众号相关
步骤:
1.编写按钮向导脚本,在手机上自动点击公众号文章列表页,即“查看历史新闻”; 2、利用fiddler代理劫持手机访问,将URL转发到本地用php编写的网页; 3、将接收到的php网页上的URL备份到数据库中; 4、使用python从数据库中检索出URL,然后进行正常的爬取。
我在爬取过程中发现一个问题:如果你只是想爬取文章内容,似乎没有访问频率限制,但是如果你想抓取阅读数和点赞数,经过一个一定的频率,返回会变成Null值,我设置了10秒的时间间隔,可以正常爬取。在这个频率下,一个小时只能抓取360条,没有实际意义。
4.清博新榜
如果你只是想看数据,直接看日报就行了,不用花钱。如果需要连接自己的系统,他们也提供了api接口