网页抓取 加密html(iframe“必须要用iframe的时候”,如何躲过搜索引擎?)

优采云 发布时间: 2021-10-10 12:26

  网页抓取 加密html(iframe“必须要用iframe的时候”,如何躲过搜索引擎?)

  前言:很多博主仔细阅读内容后,直接认为ifame不好。这篇文章其实就是教你在必须使用iframe的时候,如何避免被搜索引擎抓取,以免对SEO不利。*敏*感*词*!

  那么,什么是“何时必须使用 iframe”?举个简单的例子:一些主题分享网站,很多时候会使用iframe框架调用主题作者的网站做主题演示,那么就会产生大量的iframe框架,所以这篇文章的方法就可以派上用场了!

  导读:稍微了解一下seo站长,应该知道爬虫不喜欢iframe或frame,因为蜘蛛在访问一个URL时爬取的HTML是调用其他网页的HTML文件的代码,不收录任何文字内容。也就是说,你的网页内容是什么,蜘蛛是想不出来的。有人可能会说,搜索引擎蜘蛛还可以跟踪和抓取所调用的 HTML 文件。是的,它可以跟踪抓取,但是跟踪这部分内容通常不是一个完整的页面。搜索引擎无法判断哪一部分是主框架,哪一部分是被调用的文件。随着搜索技术的发展,不一定总能解决这个问题,但是这么多网站蜘蛛不会打扰你,因为你是一个网站。因此,当您必须使用 iframe 框架时,

  从使用iframe调用Express 100进行express查询,到推出互​​推联盟iframe调用代码,张哥对iframe有点透彻。

  记得,互推联盟推出自适应iframe代码的时候,冯耀宗博友是这样评论的:,

  后来偶然的测试给了我灵感,想到用JS封装iframe,避免被搜索引擎抓取。当时我在测试用JS封装CSS代码,想简单的加密一下自己的劳动成果。不对,突然想到,既然JS可以输出CSS,那么JS也应该输出iframe!实际测试发现我的想法是可行的!通过JS输出iframe代码,可以完美达到直接调用iframe代码的效果!

  以下是互推联盟的例子,以及发布方式:

  张哥的第一个iframe自适应调用代码如下:

  下面,张哥就来讲解一下如何用js代码封装这个iframe,做成js版本:

  首先新建一个JS文件,在里面输入如下内容并保存:

  原创 iframe 的内容在括号中。注意iframe开头和结尾都是双引号,iframe里面需要改成单引号!否则无法输出!

  document.write("");

  然后,将这个js文件上传到服务器

  比如互推联盟调用的js最终地址为:

  最后在要调用iframe的地方写如下语句

  如果有旧的 iframe 代码,请直接替换。如果发现界面不理想,请在第二步编辑JS文件,调整iframe大小。

  这样就完美的实现了原来直接用iframe框架调用的效果。

  接下来,张哥来测试一下避开搜索爬虫的效果:

  ①打开站长工具的搜索蜘蛛和机器人模拟爬虫工具:

  ②进入使用JS部署iframe代码的页面,比如MOREOPEN博客调用的互推联盟页面:

  ③如图所示,这个页面有很多外部链接。如果不处理,蜘蛛绝对可以爬到这个iframe。

  但是经过JS封装后,会得到如下爬取结果:

  如上图所示,结果中页面互推联盟中没有内容,证实了该方法的可行性!当然,感兴趣的站长也可以使用自己的网站亲自测试效果。

  最后,《国际惯例》风格总结:

  综上,事实证明,通过JS封装iframe代码确实可以完美欺骗搜索引擎,让鱼和熊掌不再难选!

  而且,没有外链输出,没有减肥,这也是张哥博客的通用互推联盟页面被很多站长点赞的重要原因之一!很多博主可能认为张格隆的互促联盟赚了多少外链,其实不然!张哥这里必须澄清一下,跟JS叫的互推联盟根本不会成为张哥博客的外链!不信的朋友可以去用工具测试一下被调用的页面就知道了!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线