搜索引擎如何抓取网页(有什么办法能防止搜索引擎抓取网站?对内容使用JavaScript)
优采云 发布时间: 2021-12-04 20:02搜索引擎如何抓取网页(有什么办法能防止搜索引擎抓取网站?对内容使用JavaScript)
1、有什么办法可以防止搜索引擎爬取网站?
第一种方法:robots.txt方法
网站根目录下有robots.txt,没有的话可以新建一个上传。
用户代理: *
不允许: /
禁止所有搜索引擎访问网站的所有部分
用户代理: *
禁止:/css/
禁止:/管理员/
禁止所有搜索引擎访问css和admin目录,只需将css或admin目录修改为你指定的文件目录或文件即可。
第二种:网页编码方式
中间添加代码,该标签禁止搜索引擎抓取网站并显示网页快照。
注意:添加了禁止码,但是搜索引擎还是可以搜索到的,因为搜索引擎索引库更新需要时间。虽然百度蜘蛛已经停止访问您在网站上的网页,但清除百度搜索引擎数据库中已建立网页的索引信息可能需要几个月的时间。
二、搜索引擎可以抓取JS吗?
1、 JS 的内容是不爬取的,但是google 会抓到JS 分析,但是一些搜索引擎技术已经可以在javecipt 脚本上获取链接,甚至执行脚本并跟踪链接。其实javascript因素还是flash网站,这种做法给搜索引擎收录和index.js带来了麻烦。所以,如果不想被搜索引擎收录,最直接的方法就是写robots文件。
2、部分超链接的导航能力完全是用Javascript模拟的。比如在 HTML A 元素中添加一段 onclick 事件处理代码。当点击超链接时,有页面导航的Javascript代码;
3、部分页面显示的多级菜单是用Javascript实现的,菜单的显示和消失由Javascript控制。如果这些菜单激发的操作是导航到另一个页面,那么导航信息就很难被抓取 Grab
4、绝对避免在导航和其他链接中使用JavaScript。导航和链接是搜索引擎抓取网页的基础。如果搜索引擎无法抓取网页,则意味着该网页不会出现在索引结果中,也就无从谈起排名。尽量避免对内容使用 JavaScript。尤其是与关键词相关的内容要尽量避免使用JavaScript来展示,否则无疑会降低关键词的密度。
5、 真正需要用到JavaScript的部分,把这部分JavaScript脚本放在一个或几个.js文件中,以免干扰搜索引擎的抓取和分析
有些JavaScript脚本实在是放不下.js文件,把它们放在html代码的底部,</body>之前,这样搜索引擎在分析网页的时候就能找到,减少对搜索引擎的干扰
6、由于普通搜索引擎很难处理Javascript代码,所以可以利用这个功能来屏蔽页面上一些不需要被搜索引擎索引的内容,使页面的密度关键词 可以增加。可以使用此类信息。称为“垃圾邮件”,例如广告、版权声明、大量导出链接、与内容无关的信息等。你可以把这些垃圾邮件扔到一个或几个.js文件中,从而减少对页面实际内容的干扰,增加关键词的密度,向搜索引擎展示页面内容的核心。