文章内容采集(fiddler代理批量采集实现方法:anyproxy+js实现+webmagic)

优采云 发布时间: 2021-08-31 21:16

  文章内容采集(fiddler代理批量采集实现方法:anyproxy+js实现+webmagic)

  微信公众号文章crawling 用python整理1.crawling

  实现方法:通过微信提供的公众号文章调用接口,实现爬取公众号文章的功能

  步骤:

  1.需要安装python selenium模块包,使用selenium中的webdriver驱动浏览器获取cookie,达到登录效果;

  2.使用webdriver功能需要安装浏览器对应的驱动插件。我在这里使用 Google Chrome 进行测试:

  谷歌浏览器版本为 52.0.2743.6 ;

  chromedriver 版本为:V2.23

  注意:谷歌浏览器版本和chromedriver需要对应,否则启动时会报错。 【附:Selenium的chromedriver与chrome版本映射表(更新为v2.30))】

  3.微信公众号登录地址:

  4.微信官方号文章界面地址可以在微信公众号后台新建图文消息,可以通过超链接功能获取:

  5.搜索公众号

  6.获取要爬取的公众号的fakeid

  7.选择要爬取的公众号,获取文章接口地址

  8.文章List翻页和内容获取

  2.AnyProxy 代理批处理采集

  实现方式:anyproxy+js

  实现方式:anyproxy+java+webmagic

  3.FiddlerCore

  实现方式:抓包工具,Fiddler4

  通过捕获和分析多个帐户,我们可以确定:

  _biz:这个14位的字符串是每个公众号的“id”,搜狗的微信平台可以获得

uin:与访问者有关,微信号id

key:和所访问的公众号有关

  步骤:

  1.编写按钮向导脚本,自动点击手机公众号文章列表页,即“查看历史新闻”;

  2、利用fiddler代理劫持​​手机访问,将URL转发到用php编写的本地网页;

  3.将接收到的php网页上的URL备份到数据库中;

  4、使用python从数据库中获取URL,然后进行正常爬取。

  爬取过程中发现问题:

  如果你只是想抓取文章内容,好像没有访问频率限制,但是如果你想抓取阅读数和点赞数,达到一定的频率后,返回的就会变成null值,我设置的时间间隔为10秒,可以正常爬取。在这个频率下,一个小时只能抓取360条记录,没有实际意义。

  4.清博新榜

  如果你只是想看数据,直接看日报就行了,不用花钱。如果需要连接自己的系统,他们也提供了api接口

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线