搜索引擎禁止的方式优化网站(“robots”元标记控制搜索引擎如何抓取和索引页?)
优采云 发布时间: 2022-02-13 01:13搜索引擎禁止的方式优化网站(“robots”元标记控制搜索引擎如何抓取和索引页?)
" 代码:
这些元标记控制搜索引擎如何抓取和索引页面。 “机器人”元标记指定的规则适用于所有搜索引擎。谷歌理解以下值(指定多个值时,用逗号分隔):
noindex:防止页面被索引
nofollow:不通过当前页面上的链接查找和抓取新页面
nosnippet:在搜索结果中显示当前页面时,不显示页面摘要
noodp:在为该页面生成标题或页面摘要时,不要使用 Open Directory Project (aka) 中的文本
noarchive:在搜索结果中显示此页面时不显示“页面快照”链接
unavailable_after:[date]:在指定日期和时间之后从搜索结果中删除此页面
其中“index”指的是索引,“follow”指的是跟随链接并传递相应的权重。当然,还有对应的“noindex”和“nofollow”,作用正好相反。
3.服务器配置文件
此方法是最不常用的拦截蜘蛛的方法,主要用于拦截“不遵守”robots.txt规则的蜘蛛。
方法是分析一段时间的网站日志,找到需要屏蔽的蜘蛛及其IP。然后通过服务器的配置文件来阻止它,从而阻止蜘蛛爬取网站。当然,这种方式使用起来并不灵活,比如不能单独阻止蜘蛛对某个文件夹(或网页)的爬取。
4.php代码禁止搜索引擎蜘蛛
if(preg_match(“/(Googlebot|Msnbot|YodaoBot|Sosospider|baiduspider|google|baidu|yahoo|sogou|
bing|coodir|soso|youdao|zhongsou|slurp|ia_archiver|scooter|spider|webcrawler|OutfoxBot)/i", $_SERVER['HTTP_USER_AGENT']))
{