文章采集软件app(如何利用爬虫爬微信公众号的内容?-DuHeZhe的回答)
优采云 发布时间: 2022-04-14 13:33文章采集软件app(如何利用爬虫爬微信公众号的内容?-DuHeZhe的回答)
本文已发表在我的知乎账号:如何使用爬虫抓取微信公众号内容?- 杜赫哲的回答 - 知乎
这是我的总结。
如果只是采集公众号文章,要求不是很严格,可以去搜狗。这种方案成本低,比较简单,但缺点也很明显。这是一个临时的 文章 链接。如果要转成永久链接,还是要通过app界面。
另一种解决方案是从微信应用程序本身 采集。这种采集会花费很多,但是也有很多类型的数据可以采集,包括但不限于:历史页面文章,阅读点赞,评论,等等
为了更直观,我做了一张图来对比搜狗和微信采集这两个方案。
ps:从搜狗输入的文章历史页面现在是空的,不知道什么时候能恢复,但是文章搜索界面正常。
我自己使用这两种方案,也提供封装好的接口。具体要求会根据成本和场景来选择使用哪一种。
简单的一句话总结就是搜狗有微信App,搜狗没有微信App,但是微信解决方案无论是软成本还是硬成本都比搜狗解决方案大很多。
题外话,图中提到了微信中的搜索界面。我自己已经实现了。我可以得到搜索公众号和文章的返回数据,只是作为练习,因为这个接口的使用量不大。有很多,所以没有打包打开。有需要的可以单独联系我。很多人可能认为采集搜索接口不太可能,因为这个数据根本不经过http协议。但是我想说的是,有时候采集数据不一定非得在请求中截取,有很多解决办法,但是成本也会变得非常大(开发成本和上线成本)。