文章采集调用(2.AnyProxy代理批量采集/24302048实现方法(一)_)

优采云发布时间: 2021-09-04 08:03

　　1.Crawling with python/d1240673769/article/details/75907152

　　实现方法：通过微信提供的公众号文章调用接口，实现爬取公众号文章的功能

　　步骤：

　　1.需要安装python selenium模块包，使用selenium中的webdriver驱动浏览器获取cookie，达到登录效果；

　　2.使用webdriver功能需要安装相应的浏览器驱动插件。我在这里用谷歌浏览器测试：谷歌浏览器版本是52.0.2743.6； chromedriver 版本为：V 2.23 注意：Google Chrome 版本和chromedriver 需要对应，否则启动时会报错。【附：selenium的chromedriver与chrome版本映射表（更新为v2.30)/huilan_same/article/details/51896672））

　　3.微信公众号登录地址：/

　　4.微信公号文章微信公众号后台可创建界面地址新建图文消息，可通过超链接功能获取：

　　5.搜索公众号

　　6.获取要爬取的公众号的fakeid

　　7.选择要爬取的公众号，获取文章interface地址

　　8.文章List翻页和内容获取

　　2.AnyProxy 代理批处理采集/p/24302048

　　实现方式：anyproxy+js

　　/luojiangwen/p/7943696.html

　　实现方式：anyproxy+java+webmagic

　　/t/181857

　　实现方式：抓包工具，Fiddler4

　　通过捕获和分析多个帐户，我们可以确定：

　　_biz：这个14位字符串是每个公众号的“id”，可在搜狗微信平台获取

　　uin：与访客相关，微信ID

　　key：与被访问的公众号相关

　　步骤：

　　1.编写按钮向导脚本，在手机上自动点击公众号文章列表页，即“查看历史新闻”； 2、利用fiddler代理劫持手机访问，将URL转发到本地用php编写的网页； 3、将接收到的php网页上的URL备份到数据库中； 4、使用python从数据库中检索出URL，然后进行正常的爬取。

　　我在爬取过程中发现一个问题：如果你只是想爬取文章内容，似乎没有访问频率限制，但是如果你想抓取阅读数和点赞数，经过一个一定的频率，返回会变成Null值，我设置了10秒的时间间隔，可以正常爬取。在这个频率下，一个小时只能抓取360条，没有实际意义。

　　4.清博新榜

　　如果你只是想看数据，直接看日报就行了，不用花钱。如果需要连接自己的系统，他们也提供了api接口

0

2021-09-04

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用(2.AnyProxy代理批量采集/24302048实现方法(一)_)

0 个评论

发起人

AI时代内容工厂

文章采集调用(2.AnyProxy代理批量采集/24302048实现方法(一)_)

0 个评论

发起人

相关问题