搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

优采云发布时间: 2021-09-15 03:09

　　1、在robot.txt中设置屏蔽（这个技巧只能防君子，不能防小人）在robot.txt中设置屏蔽某些特定页面，然后在访问过的页面中添加这些特定页面的链接，以及然后隐藏起来，如果有人访问这个页面，直接屏蔽ip（优点是防止一些垃圾搜索引擎蜘蛛，但是还是没有办法阻止像国内优采云这样被规则抓取的蜘蛛） apache端进行访问日志记录，在一定时间内访问频率过高，超过一定限制直接封IP。 ,会导致正常人无法访问，或者误杀百度和谷歌）修改页面的标签，css，在页面内容展示和布局中随意使用不同的模板或不同的html标签，导致智能抓取蜘蛛规则人很硬，导致采集不顺利。（也是一种方式，不过好像维护成本太高了，如果是按照html文档中标签的顺序和顺序来爬的话，这个方法也没什么用）自己加网站内容中的网址或广告等。（对于一些写蜘蛛的菜鸟，可以防止，但高手就不一样了。这些广告可以过滤掉）用js加密内容（防止爬虫，但是这样会导致所有爬虫机器人爬取的内容都是加密的，不利于搜索引擎优化）全站Flash（同上）全站Ajax（同上）...这些方法只能组织常规蜘蛛的访问，不能：防止非人类行为从爬取数据，允许指定搜索引擎任意爬取，允许正常人任意浏览。那么有什么方法可以真正做到这一点呢？下面就是了，虽然不能完全屏蔽，但是很好用：1、记录用户的访问频率，然后频率超过一定限制，弹出一个页面验证码，用户可以进入验证继续之前的代码2、判断该路的搜索引擎是百度还是谷歌，如果是，则不会限制访问频率。不能通过 User-agent 来完成，因为 User-agent 是可以模拟的。应该通过IP反向解决：host 66.249.71.6 你会得到以下信息6.71.249.66.in-addr.arpa domain name 指针。OK，它是一个谷歌蜘蛛，这个IP可以是任何采集，注意：IP是反向解析的，信息不可伪造。它是通过向特殊机构申请而获得的。剩下的问题是，当人类访问过于频繁时，只需输入验证码即可。

0

2021-09-15

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

0 个评论

发起人

相关问题