wordpress如何抓取文章浏览量的第一步:获取网页

优采云 发布时间: 2021-06-21 00:02

  wordpress如何抓取文章浏览量的第一步:获取网页

  文章采集文章采集是wordpress博客构建过程中十分重要的一步,也是最基础的一步。如果你不去完成这一步,那么你可能会发现从外部看来,你的博客文章浏览量一直不理想。我们今天就一起来探讨一下wordpress如何抓取网页。第一步:获取网页源代码首先我们先从网站抓取网页源代码:首先你要保证浏览器支持postmessage,也就是你要清楚的知道对方postmessage的类型是什么。

  如果你的网站支持postmessage,那么只需要在网站根目录下运行if__name__=='__main__'这个脚本即可。因为抓取的是网页源代码,因此这里我们可以运行以下脚本来完成抓取:--user-agent"mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/71.0.3285.99safari/537.36"'我们发现,对方的postmessage的类型是authorization,这说明对方不是spam类型,所以我们抓取网页中他的个人信息是完全没有问题的。

  第二步:wordpress博客站点设置抓取由于所涉及的网站类型较多,且大多数网站可能并不支持postmessage,因此我们需要确定哪些网站是支持postmessage的。通过对网站抓取的分析,我们发现目前有百度学术一类网站是支持postmessage的,这一类网站可以抓取。同时也有一些其他的网站不支持postmessage,这需要你自己去尝试,然后去挑选支持postmessage的网站。

  如果你抓取的是一些disqus类型的网站也是可以抓取的,不过需要额外付费才可以。另外也有一些类型,是目前主流站点没有被抓取的,这一类网站需要小心使用,这些网站可能不支持postmessage。此外,根据抓取到的postmessage是否有修改过,我们还可以分为一次性抓取,分批抓取,还有批量抓取。(比如有的站点postmessage是1次打包上传,或者有的站点postmessage是伪造的)如果你是为了抓取视频课程目录,那么就可以查看搜狐的课程信息,然后找到postmessage,然后再抓取即可,如下图:(referer:有些站点会隐藏网页地址,但是在命令提示符中输入就是显示网址,比如学术站点)如果你需要抓取某个站点的文章则需要先去它的txt文档中找到authorization,然后将referer带入,通过对比找到网站的authorization地址和服务器地址即可。

  第三步:使用wordpress代理加速网站抓取如果你想抓取baidu学术站点,那么只需要将当前网站的authorization加上,然后运行代理即可抓取(图中的b代理即为baidu学术站点的authorization代理)。wordpress加速技术-baidu学术网站抓。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线