搜索引擎如何抓取网页(2022全球C++及系统软件技术大会|3月11-12日·上海点击了解详情(图))

优采云 发布时间: 2022-03-03 19:21

  搜索引擎如何抓取网页(2022全球C++及系统软件技术大会|3月11-12日·上海点击了解详情(图))

  2022全球C++与系统软件技术大会| 3月11-12日上海点击查看详情>>>

  

  1、有什么办法可以防止搜索引擎爬取网站?

  第一种:robots.txt 方法

  网站根目录下有robots.txt,如果没有,可以新建上传。

  用户代理: *

  不允许: /

  阻止所有搜索引擎访问 网站 的所有部分

  用户代理: *

  禁止:/css/

  禁止:/admin/

  禁止所有搜索引擎访问css和admin目录,将css或admin目录修改为你指定的文件目录或文件。

  第二种:网页代码​​法

  在这两者之间,添加禁止搜索引擎抓取 网站 并显示页面快照的代码。

  注意:添加了禁止代码,但搜索引擎仍然可以搜索出来,因为搜索引擎索引库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但是百度搜索引擎数据库中已经建立的网页索引信息可能需要几个月的时间才能被清除。

  二、搜索引擎可以爬取JS吗?

  1、JS内容不会爬取,但是google会爬取JS解析,但是一些搜索引擎技术已经能够获取到javescipt脚本上的链接,甚至执行脚本并跟随链接,其实就是javascript因素还是flash网站,这种做法给搜索引擎的收录和索引带来了麻烦。所以,如果你不希望被搜索引擎搜索到收录,最直接的方法就是写robots文件。

  2、有些超链接的导航能力完全是用Javascript模拟的,比如在HTML A元素中加入一段onclick事件处理代码,当超链接被点击时,就有了页面导航的Javascript代码;

  3、部分页面显示的多级菜单是用Javascript实现的,菜单的显示和消失由Javascript控制。如果这些菜单触发的操作是导航到另一个页面,那么导航信息很难被抓取。抓住;

  4、绝对避免使用 JavaScript 进行导航和其他链接。导航和链接是搜索引擎抓取网页的基础。如果搜索引擎无法抓取网页,则意味着网页不会出现在索引结果中,也没有办法谈排名。尽量避免对内容使用 JavaScript。尤其是与关键词相关的内容要尽量避免使用JavaScript来展示,否则无疑会降低关键词的密度。

  5、如果确实需要使用JavaScript,请将这部分JavaScript脚本放在一个或几个.js文件中,以免干扰搜索引擎的抓取和分析

  一些不能放在.js文件中的JavaScript脚本,应该放在html代码的最底部,这样搜索引擎在分析网页的时候会在最后找到,减少对搜索引擎的干扰

  6、因为普通的搜索引擎很难处理Javascript代码,所以可以适当利用这个特性来屏蔽页面上一些不需要被搜索引擎索引的内容,让页面的密度< @关键词 可以增加,这种信息可以称为“垃圾信息”,例如广告、版权声明、大量外链、与内容无关的信息等。所有这些垃圾信息都可以扔到一个或者几个.js文件,从而减少对页面实际内容的干扰,增加关键词的密度,向搜索引擎展示页面内容的核心。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线