php禁止网页抓取(代码添加一个屏蔽功能更为方便方便!!! )
优采云 发布时间: 2021-12-02 05:05php禁止网页抓取(代码添加一个屏蔽功能更为方便方便!!!
)
由于 WordPress 是一个开源博客程序,因此受到世界各地许多用户的喜爱。也会有很多个性化的需求。
比如有些文章我们可能不想让搜索引擎抓取,这个可以通过robots实现,但是很麻烦。代码中加入阻塞函数更方便
一、设置方法
方法还是很简单的,就几段代码。我们在主题文件中找到了“functions.php”文件。我们不保证每个主题文件的名称完全相同,但大部分都是一样的。
然后将以下代码添加到“functions.php”文件中。提示:如果您的 WordPress 站点启用了页面缓存,则此功能将不起作用!!
// 站点开启了页面缓存,此功能无效
function ludouse_add_custom_box() {
if (function_exists('add_meta_box')) {
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
}
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');
function ludou_allow_se() {
global $post;
//添加验证字段
wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
$meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
if($meta_value)
echo ' 屏蔽搜索引擎';
else
echo ' 屏蔽搜索引擎';
}
// 保存选项设置
function ludouse_save_postdata($post_id) {
// 验证
if ( !isset( $_POST['ludou_allow_se_nonce']))
return $post_id;
$nonce = $_POST['ludou_allow_se_nonce'];
// 验证字段是否合法
if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
return $post_id;
// 判断是否自动保存
if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)
return $post_id;
// 验证用户权限
if ('page' == $_POST['post_type']) {
if ( !current_user_can('edit_page', $post_id))
return $post_id;
}
else {
if (!current_user_can('edit_post', $post_id))
return $post_id;
}
// 更新设置
if(!empty($_POST['ludou-allow-se']))
update_post_meta($post_id, 'ludou_allow_se', '1');
else
update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');
// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
// 本功能只对文章和页面有效
if(is_singular()) {
global $post;
$is_robots = 0;
$ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);
if(!empty($ludou_allow_se)) {
// 下面是爬虫Agent判断关键字数组
// 有点简单,自己优化一下吧
$bots = array(
'spider',
'bot',
'crawl',
'Slurp',
'yahoo-blogs',
'Yandex',
'Yeti',
'blogsearch',
'ia_archive',
'Google',
'baidu'
);
$useragent = $_SERVER['HTTP_USER_AGENT'];
if(!empty($useragent)) {
foreach ($bots as $lookfor) {
if (stristr($useragent, $lookfor) !== false) {
$is_robots = 1;
break;
}
}
}
// 如果当前文章/页面禁止搜索引擎抓取,返回404
// 当然你可以改成403
if($is_robots) {
status_header(404);
exit;
}
}
}
}
add_action('wp', 'do_ludou_allow_se');
二、优化方法
当我们将上述代码添加到主题“functions.php”中时,WordPress后台的文章编辑页面会出现一个文件拦截搜索引擎按钮。如果你想要某篇文章文章不要检查它是否被搜索引擎抓取。
但是上面的代码是勾选时,被勾选的文章在被搜索引擎访问时会返回404状态。如果您担心返回404死链接会影响SEO,那么我们可以使用以下代码。
但前提是你先在主题文件的“header.php”中添加一个meta语句告诉搜索引擎不要收录这个页面。
并且以下代码必须在您的主题 header.php 文件中:
wp_head();
然后在主题“functions.php”文件中添加如下优化代码。当然,如果有问题,我们可以选择不使用优化后的代码,因为你设置不为收录的页面肯定很少,所以不会对搜索引擎造成太大影响。
// 站点开启了页面缓存,此功能无效
function ludouse_add_custom_box() {
if (function_exists('add_meta_box')) {
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
}
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');
function ludou_allow_se() {
global $post;
//添加验证字段
wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
$meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
if($meta_value)
echo ' 屏蔽搜索引擎';
else
echo ' 屏蔽搜索引擎';
}
// 保存选项设置
function ludouse_save_postdata($post_id) {
// 验证
if ( !isset( $_POST['ludou_allow_se_nonce']))
return $post_id;
$nonce = $_POST['ludou_allow_se_nonce'];
// 验证字段是否合法
if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
return $post_id;
// 判断是否自动保存
if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)
return $post_id;
// 验证用户权限
if ('page' == $_POST['post_type']) {
if ( !current_user_can('edit_page', $post_id))
return $post_id;
}
else {
if (!current_user_can('edit_post', $post_id))
return $post_id;
}
// 更新设置
if(!empty($_POST['ludou-allow-se']))
update_post_meta($post_id, 'ludou_allow_se', '1');
else
update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');
// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
// 本功能只对文章和页面有效
if(is_singular()) {
global $post;
$is_robots = 0;
$ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);
if(!empty($ludou_allow_se)) {
// 下面是爬虫Agent判断关键字数组
// 有点简单,自己优化一下吧
$bots = array(
'spider',
'bot',
'crawl',
'Slurp',
'yahoo-blogs',
'Yandex',
'Yeti',
'blogsearch',
'ia_archive',
'Google',
'baidu'
);
$useragent = $_SERVER['HTTP_USER_AGENT'];
if(!empty($useragent)) {
foreach ($bots as $lookfor) {
if (stristr($useragent, $lookfor) !== false) {
$is_robots = 1;
break;
}
}
}
// 如果当前文章/页面禁止搜索引擎抓取,返回404
// 当然你可以改成403
if($is_robots) {
echo "\n";
}
}
}
}
add_action('wp_head', 'do_ludou_allow_se');