爬取公众号及知乎专栏文章的标题链接的方式汇总

优采云 发布时间: 2020-08-19 05:43

  爬取公众号及知乎专栏文章的标题链接的方式汇总

  记一次近来的工作内容(奇怪的任务降低了)因为Python是今年接触而且没有过爬虫的实际学习操作,所以在出现“要搜集文章标题链接”的任务是还是有点难以下手的。虽然有了解过爬虫可以便捷操作,但由于经验不足造成花了不少时间进行学习查找。。。最后倒是找到了不用写代码就可以爬取这种信息的方式,并且能将这种信息手动导出excel表格中查看使用。于是这儿记录一下方式以及查找思路和过程。

  

  不需要代码,使用工具辅助的办法(0基础)

  公众号文章信息的爬取方式:

  使用工具"小V公众号文章下载器"

  下载地址:

  

  

  爬取中的工具

  

  爬取的结果

  使用教程:网址介绍中有,按次序做出来即可

  优点:可以快速爬取须要的信息,不仅局限于标题链接,还包括文章本身以及数据剖析等

  缺点:要付费,试用版只能用爬一个帐号而且不能怕文章本身,不过付费可以按天数订购,比其他一些买软件本身的实惠,做短期内需求的爬虫来说不错。不过只能爬取公众号的文章,加上爬取过多的话帐号24小时内未能在pc端看历史记录(大约在日爬取3k文章左右后会发生此类情况,此时须要用另外的帐号继续)

  使用工具批量微信公众号下载小工具

  下载地址:

  

  使用教程:下载出来会有相关教程视频

  优点:免费,可以下载文章为转word,pdf等,用法也简单

  缺点:大概就是没有我须要的要求(指下载文章的地址以及标题并转为excel表格)吧。。。。

  知乎文章信息的爬取方式:

  浏览器插件web scraper

  

  谷歌应用商店可以下载

  

  正在爬取资料,使用快捷键F12打开

  

  

  爬取结果

  使用教程:

  

  

  优点:简单易操作,免费,而且操作上去更快

  缺点:爬取的资料没有这么全面

  

  需要用代码的办法汇总(需要有python基础)

  微信公众号文章:通过抓包或则自己注册一个公众号进行操作,网上的方式大同小异,这里不多赘言。附一个找到的比较完整的网址,有一定的python基础的同学可以去试试看。

  

  这里有完整的工程文件,不过没有基础的话不好理解(我基础忘了所以弄了许久还是有点问题,才会去换思路找工具的囧)

  知乎文章:网上这个倒是只听到一个方式,是风变编程的一个案例,网上也有好多这个方式的总结。做法相对里面的会简单一点(但仍没有插件来的快)

  

  方法与微信公众号文章的获取方式类似,即使稍为简单点,但依然须要一定的基础。

  

  找那些内容时的一点心得

  虽然找下来归纳后就这么多,但是当时找的时侯很麻烦的。因为只是对爬虫有点了解,加上当时只学了点皮毛,要立即实操赶野鸭上架有点困难。一开始查找的思路是用“python爬取公众号文章链接”这个条件进行查找,但是找下来的方式我不一定能用,而且常常出bug(菜鸡的疼),之后还拜托大鸽瞧瞧如何写,不过还是有点问题无法处理,同时对于导入成excel表没哪些头绪。

  后面换了种思路,网上找的时侯发觉不只是我有这些需求,有不少人也须要并且不一定会用python,就想着“既然网上有这些需求,说不定有相应的工具”。然后就倒真找到了一些,但是这种工具下载器五花八门的,还太贵(单买软件或则单次服务就太贵)。然后比较了几个工具后最后选择了*敏*感*词*但花的金钱比我花时间找和学习的时间比上去便宜了不少。即使是这样,我还是花了三天才导入完所有内容(如果自己做不知道要做到什么时候)

  

  归纳在一起有五千多条

  完成后也反思了下:

  我一开始的思路就是有点问题的:在短时间内速成上手还是有点困难,应该换个思路找找有没有相应的工具,因为既然有这些需求那就应当有对应的市场,如果早点意识到就不会花那么多时间做无用功了。

  学Python真的很重要,以后自己找资料也不会这么麻烦,更不会象几天前那样象无头苍蝇四处撞。(要学的东西降低了)

  

  不过可喜可贺最后任务还是完成了,也学到了一些奇怪的东西(雾)

  最近还要忙些事,忙完再整理下之前学的表达式知识出点内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线