搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

优采云 发布时间: 2021-09-15 03:09

  搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

  1、 在robot.txt中设置屏蔽(这个技巧只能防君子,不能防小人)在robot.txt中设置屏蔽某些特定页面,然后在访问过的页面中添加这些特定页面的链接,以及然后隐藏起来,如果有人访问这个页面,直接屏蔽ip(优点是防止一些垃圾搜索引擎蜘蛛,但是还是没有办法阻止像国内优采云这样被规则抓取的蜘蛛) apache端进行访问日志记录,在一定时间内访问频率过高,超过一定限制直接封IP。 ,会导致正常人无法访问,或者误杀百度和谷歌)修改页面的标签,css,在页面内容展示和布局中随意使用不同的模板或不同的html标签,导致智能抓取蜘蛛规则人很硬,导致采集不顺利。 (也是一种方式,不过好像维护成本太高了,如果是按照html文档中标签的顺序和顺序来爬的话,这个方法也没什么用) 自己加网站内容中的网址或广告等。 (对于一些写蜘蛛的菜鸟,可以防止,但高手就不一样了。这些广告可以过滤掉) 用js加密内容(防止爬虫,但是这样会导致所有爬虫机器人爬取的内容都是加密的,不利于搜索引擎优化)全站Flash(同上)全站Ajax(同上)...这些方法只能组织常规蜘蛛的访问,不能:防止非人类行为从爬取数据,允许指定搜索引擎任意爬取,允许正常人任意浏览。那么有什么方法可以真正做到这一点呢?下面就是了,虽然不能完全屏蔽,但是很好用:1、记录用户的访问频率,然后频率超过一定限制,弹出一个页面验证码,用户可以进入验证继续之前的代码2、 判断该路的搜索引擎是百度还是谷歌,如果是,则不会限制访问频率。不能通过 User-agent 来完成,因为 User-agent 是可以模拟的。应该通过IP反向解决:host 66.249.71.6 你会得到以下信息6.71.249.66.in-addr.arpa domain name 指针。OK,它是一个谷歌蜘蛛,这个IP可以是任何采集,注意:IP是反向解析的,信息不可伪造。它是通过向特殊机构申请而获得的。剩下的问题是,当人类访问过于频繁时,只需输入验证码即可。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线