搜索引擎禁止的方式优化网站(“robots”元标记控制搜索引擎如何抓取和索引页?)
优采云 发布时间: 2021-11-19 17:07搜索引擎禁止的方式优化网站(“robots”元标记控制搜索引擎如何抓取和索引页?)
"在代码中:
这些元标记控制搜索引擎如何抓取和索引页面。 “robots”元标记指定的规则适用于所有搜索引擎。谷歌理解以下值(指定多个值时,用逗号隔开):
noindex:防止网页被索引
nofollow:不通过当前页面的链接查找和抓取新网页
nosnippet:在搜索结果中显示当前页面时,不显示页面摘要
noodp:为该页面生成标题或页面摘要时,不要使用打开目录项(又名)中的文本
noarchive:在搜索结果中显示此网页时,不显示“网页快照”链接
unavailable_after:[date]:在指定日期和时间之后从搜索结果中删除此页面
“index”是指索引,“follow”是指跟踪链接并传递相应的权重。当然,相应的还有“noindex”和“nofollow”,功能正好相反。
3.服务器配置文件
这个方法是最不常用的拦截蜘蛛的方法。主要用于拦截“不遵守”robots.txt规则的蜘蛛。
方法是分析一段时间的网站日志,找到需要屏蔽的蜘蛛及其ip。然后通过服务器的配置文件进行拦截,从而阻止某个蜘蛛爬取网站。当然,这种方法使用起来并不灵活,例如无法单独拦截蜘蛛对某个文件夹(或网页)的抓取。
4.php代码禁止搜索引擎蜘蛛
if(preg_match("/(Googlebot|Msnbot|YodaoBot|Sosospider|baiduspider|google|baidu|yahoo|sogou|
bing|coodir|soso|youdao|zhongsou|slurp|ia_archiver|scooter|spider|webcrawler|OutfoxBot)/i”, $_SERVER['HTTP_USER_AGENT']))
{