干货教程:Python爬虫实现的微信公众号文章下载器

优采云 发布时间: 2022-11-04 08:16

  干货教程:Python爬虫实现的微信公众号文章下载器

  硒爬行过程

  安装python selenium自动模块,使用selenium中的webdriver驱动浏览器获取cookies登录微信公众号后台;

  使用webdriver功能需要安装对应浏览器的驱动插件。

  注意:谷歌浏览器版本和chromedriver需要对应,否则启动时会报错。

  微信公众号登录地址:

  微信公众号文章的接口地址可以在微信公众号后台创建,可以从超链接函数中获取:

  搜索公众号名称

  获取要爬取的公众号fakeid

  选择要爬取的公众号,获取文章的接口地址

  文章列表翻页和内容获取

  AnyProxy 代理批量采集

  1、微信客户端:可以是安装了微信应用的手机,也可以是电脑上的安卓模拟器。

  2、微信个人账号:采集的内容,不仅需要微信客户端,采集还需要微信个人账号。

  3.本地代理服务器系统:通过Anyproxy代理服务器将公众号历史消息页面中文章的列表发送到自己的服务器。

  4、文章列表分析存储系统,分析文章列表并建立采集队列,实现批量采集内容。

  Fiddler 设置代理并抓包

  通过捕获和分析多个账户,可以确定:

  _biz:这个14位的字符串是每个公众号的“id”,可以从搜狗的微信平台获取。

  uin:与访客相关,微信ID

  key:与访问的公众号相关

  步:

  1、编写按钮向导脚本,在手机端自动点击公众号文章的列表页面,即“查看历史消息”;

  2、使用fiddler代理劫持​​手机访问,将URL转发到php编写的本地网页;

  3、将接收到的URL备份到php网页上的数据库中;

  4、使用python从数据库中检索URL,然后进行正常爬取。

  

  潜在问题:

  如果只是想爬文章的内容,貌似没有访问频率限制,但是如果想爬读点赞数,一定频率后返回值会变空。

  付费平台

  例如,如果你只是想看数据,你可以不花钱只看每日清单。如果你需要访问自己的系统,他们也提供了一个api接口

  3 项目步骤

  3.1 基本原则

  目标爬取网站收录微信平台大部分优质微信公众号文章,会定期更新。经过测试,发现对爬虫更加友好。

  1.网站页面排版及排版规则,不同公众号以链接中的账号区分

  2.公众号采集下文章的翻页也是有规律的:id号每翻一页+12

  所以过程思路是

  获取预查询微信公众号ID(不是直接显示的名字,而是信息名片中的ID号,一般由数字和字母组成)

  请求一个html页面判断公众号是否被更改收录

  如果没有收录,页面显示结果为:404 页面不存在,可以直接用正则表达式匹配提示信息

  正则匹配查找目标公众号的最大页数收录文章

  解析请求的页面,提取 文章 链接和标题文本

  保存信息提取结果

  调用pdfkit和wkhtmltopdf转换网页

  3.2 环境

  win10(64位)

  蜘蛛(python3.6)

  安装转换工具包 wkhtmltopdf

  要求

  pdf工具包

  3.3 公众号信息检索

  通过向目标url发起requset请求,获取页面的html信息,然后调用正则方法匹配两条信息

  1、公众号是否存在?

  2.如果存在,文章收录的最大页数是多少

  

  当公众号存在时,直接调用request解析目标请求链接。

  注意目标爬虫网站必须添加headers,否则会直接拒绝访问

  3.4 正则解析、提取链接和文章标题

  以下代码用于从 html 文本中解析链接和标题文本信息

  3.5 自动跳转页面

  下面的代码通过循环递增赋值来改变url中的页码参数

  3.6 去除标题中的非法字符

  因为windows下的file命令,有些字符不能使用,所以需要使用正则剔除

  itle = re.sub('[\\\\/:*?\"|]', '', info.loc[indexs]['title'])

  3.7 将html转换为PDF

  使用pandas的read_csv函数读取爬取的csv文件,循环遍历“link”、“title”、“date”

  然后调用pdfkit函数转换生成的PDF文件

  3.7 将html转换为PDF

  使用pandas的read_csv函数读取爬取的csv文件,循环遍历“link”、“title”、“date”

  然后调用pdfkit函数转换生成的PDF文件

  3.8 生成的 PDF 结果

  4 结果显示

  ​​​

  完全免费:PbootCMS采集-免费采集发布伪原创插件

  Pbootcms怎么样采集?pbootcms网站模板优化提示允许网站fast收录关键词排名。很多人网站认为施工完成后就完成了。其实网站构建完成后,还需要优化。什么是优化?例如,如果您种植一棵树,您需要除草、施肥、修剪等。等等,网站 就像那棵树也需要维护才能茁壮成长。我们可以在网上看到,有的网站做得很好,有的网站年久失修。今天博主就简单介绍一下网站的优化技巧。

  一、定期量化发布是关键

  为了让网站保持持续稳定的更新习惯,同时让百度蜘蛛发现这种规律,实现定时爬取,需要定时发布新内容。作为百度二次收录的关键因素,定期定量发布对SEO的友好性非常有利。所以,我们应该每天保持恒定的更新数量,放弃今天10篇,明天100篇的情况。因为它会被降级和沙盒化,同时也会给搜索引擎留下你的网站不稳定和善变的坏印象。

  2.一个好的网站结构是基础

  为了更利于访问者对网站的结构和层次结构的理解和理解,方便蜘蛛爬取和索引,需要建立良好的网站结构。这是基础,但也要注意。如果可能,尽量使用静态页面,因为一般静态页面比动态页面对蜘蛛更友好。

  三、打造优质内容是关键

  作为搜索引擎打分网站的重要标准,我们一定要注意。那么什么是好的内容呢?我们认为 原创 和 网站 内容相关性是最重要的两点。不管怎么创作,都必须注意发布的内容和网站定位的话题的关联性,那么加强两者关联性有什么好处呢?搜索引擎的青睐有利于打造高质量的网站,增加网站的权重。可以说是好处多多。今天给大家分享一个快速采集高质量文章Pbootcms采集。

  

  这个Pbootcms采集不需要学习更多的专业技能,只需几个简单的步骤就可以轻松采集内容数据,用户只需要在Pbootcms采集在>上进行简单的设置,完成后Pbootcms采集会根据用户设置的关键词匹配内容和图片的准确率,可以选择保存在本地或者选择伪原创发布后,提供方便快捷的内容采集伪原创发布服务!!

  和其他Pbootcms采集插件相比,这个Pbootcms采集基本没有门槛,不需要花很多时间学习正则表达式或者html标签. 您可以在几分钟内开始。只需输入关键词即可实现采集(Pbootcms采集也自带关键词采集的功能)。一路挂断!设置任务自动执行采集伪原创发布和推送任务。

  几十万个不同的cms网站可以统一管理。一个人维护数百个 网站文章 更新也不是问题。这个Pbootcms采集发布插件工具还配备了很多SEO功能,通过软件发布还可以提升很多SEO优化采集伪原创 .

  例如:设置自动下载图片保存在本地或第三方(使内容不再有对方的外链)。自动内链(让搜索引擎更深入地抓取你的链接)、前后插入内容或标题,以及网站内容插入或随机作者、随机阅读等,形成“高原创 ”。

  

  这些SEO小功能不仅提高了网站页面原创的度数,还间接提升了网站的收录排名。您可以通过软件工具上的监控管理直接查看文章采集的发布状态,不再需要每天登录网站后台查看。目前博主亲测软件是免费的,可以直接下载使用!

  四、外链渠道是保障

  也很可惜,每天发布的优质内容,因为得不到百度蜘蛛的青睐,所以无趣。对于很多外链强的老站来说,建立高质量的外链和访问渠道一般不难,但对于外链差的新站,就不一定了。那么我们需要采取什么方法呢?我们可以选择一些热门的论坛,将新内容页面的地址链接发送出去,这样自然会带来更多的流量,帮助蜘蛛从这些站点爬到你的站点。对新的内容页面进行爬网和索引。

  5、部署内链创造机会

  为什么我们需要布局内部链接?在 网站 的短期内,为了让蜘蛛从你网站的其他页面快速到达新的内容页面,应该努力在 网站 的主页等重要页面上发布新内容,以及同时,您可以设置调用其他页面的新内容。已发布内容的面板和锚文本指向新的内容页面,有利于为百度妙说创造机会和条件。同时,从网站的长远发展来看,要达到增加网站权重的目标,也必须重视内链的建设。

  网站优化是网站构建后的必做工作。操作网站的人员需要具备耐得住寂寞、不骄不躁、善于探索、坚持操作的素质。自己操作肯定会很累,所以我们需要使用一些SEO插件功能来帮助我们减少每天必须要做的复杂繁琐的SEO维护。看完这篇文章,如果觉得不错,不妨采集一下,或者发给需要的朋友同事。关注博主,每天为你展示各种SEO经验,打通你的二线任命和主管!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线