php禁止网页抓取(代码添加一个屏蔽功能更为方便方便!!! )

优采云 发布时间: 2021-12-02 05:05

  php禁止网页抓取(代码添加一个屏蔽功能更为方便方便!!!

)

  由于 WordPress 是一个开源博客程序,因此受到世界各地许多用户的喜爱。也会有很多个性化的需求。

  比如有些文章我们可能不想让搜索引擎抓取,这个可以通过robots实现,但是很麻烦。代码中加入阻塞函数更方便

  

  一、设置方法

  方法还是很简单的,就几段代码。我们在主题文件中找到了“functions.php”文件。我们不保证每个主题文件的名称完全相同,但大部分都是一样的。

  然后将以下代码添加到“functions.php”文件中。提示:如果您的 WordPress 站点启用了页面缓存,则此功能将不起作用!!

  

// 站点开启了页面缓存,此功能无效

function ludouse_add_custom_box() {

if (function_exists('add_meta_box')) {

add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');

add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');

}

}

add_action('add_meta_boxes', 'ludouse_add_custom_box');

function ludou_allow_se() {

global $post;

//添加验证字段

wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');

$meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);

if($meta_value)

echo ' 屏蔽搜索引擎';

else

echo ' 屏蔽搜索引擎';

}

// 保存选项设置

function ludouse_save_postdata($post_id) {

// 验证

if ( !isset( $_POST['ludou_allow_se_nonce']))

return $post_id;

$nonce = $_POST['ludou_allow_se_nonce'];

// 验证字段是否合法

if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))

return $post_id;

// 判断是否自动保存

if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)

return $post_id;

// 验证用户权限

if ('page' == $_POST['post_type']) {

if ( !current_user_can('edit_page', $post_id))

return $post_id;

}

else {

if (!current_user_can('edit_post', $post_id))

return $post_id;

}

// 更新设置

if(!empty($_POST['ludou-allow-se']))

update_post_meta($post_id, 'ludou_allow_se', '1');

else

update_post_meta($post_id, 'ludou_allow_se', '0');

}

add_action('save_post', 'ludouse_save_postdata');

// 对于设置不允许抓取文章和页面

// 禁止搜索引擎抓取,返回404

function do_ludou_allow_se() {

// 本功能只对文章和页面有效

if(is_singular()) {

global $post;

$is_robots = 0;

$ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);

if(!empty($ludou_allow_se)) {

// 下面是爬虫Agent判断关键字数组

// 有点简单,自己优化一下吧

$bots = array(

'spider',

'bot',

'crawl',

'Slurp',

'yahoo-blogs',

'Yandex',

'Yeti',

'blogsearch',

'ia_archive',

'Google',

'baidu'

);

$useragent = $_SERVER['HTTP_USER_AGENT'];

if(!empty($useragent)) {

foreach ($bots as $lookfor) {

if (stristr($useragent, $lookfor) !== false) {

$is_robots = 1;

break;

}

}

}

// 如果当前文章/页面禁止搜索引擎抓取,返回404

// 当然你可以改成403

if($is_robots) {

status_header(404);

exit;

}

}

}

}

add_action('wp', 'do_ludou_allow_se');

  二、优化方法

  当我们将上述代码添加到主题“functions.php”中时,WordPress后台的文章编辑页面会出现一个文件拦截搜索引擎按钮。如果你想要某篇文章文章不要检查它是否被搜索引擎抓取。

  但是上面的代码是勾选时,被勾选的文章在被搜索引擎访问时会返回404状态。如果您担心返回404死链接会影响SEO,那么我们可以使用以下代码。

  但前提是你先在主题文件的“header.php”中添加一个meta语句告诉搜索引擎不要收录这个页面。

  并且以下代码必须在您的主题 header.php 文件中:

  

wp_head();

  然后在主题“functions.php”文件中添加如下优化代码。当然,如果有问题,我们可以选择不使用优化后的代码,因为你设置不为收录的页面肯定很少,所以不会对搜索引擎造成太大影响。

  

// 站点开启了页面缓存,此功能无效

function ludouse_add_custom_box() {

if (function_exists('add_meta_box')) {

add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');

add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');

}

}

add_action('add_meta_boxes', 'ludouse_add_custom_box');

function ludou_allow_se() {

global $post;

//添加验证字段

wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');

$meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);

if($meta_value)

echo ' 屏蔽搜索引擎';

else

echo ' 屏蔽搜索引擎';

}

// 保存选项设置

function ludouse_save_postdata($post_id) {

// 验证

if ( !isset( $_POST['ludou_allow_se_nonce']))

return $post_id;

$nonce = $_POST['ludou_allow_se_nonce'];

// 验证字段是否合法

if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))

return $post_id;

// 判断是否自动保存

if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)

return $post_id;

// 验证用户权限

if ('page' == $_POST['post_type']) {

if ( !current_user_can('edit_page', $post_id))

return $post_id;

}

else {

if (!current_user_can('edit_post', $post_id))

return $post_id;

}

// 更新设置

if(!empty($_POST['ludou-allow-se']))

update_post_meta($post_id, 'ludou_allow_se', '1');

else

update_post_meta($post_id, 'ludou_allow_se', '0');

}

add_action('save_post', 'ludouse_save_postdata');

// 对于设置不允许抓取文章和页面

// 禁止搜索引擎抓取,返回404

function do_ludou_allow_se() {

// 本功能只对文章和页面有效

if(is_singular()) {

global $post;

$is_robots = 0;

$ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);

if(!empty($ludou_allow_se)) {

// 下面是爬虫Agent判断关键字数组

// 有点简单,自己优化一下吧

$bots = array(

'spider',

'bot',

'crawl',

'Slurp',

'yahoo-blogs',

'Yandex',

'Yeti',

'blogsearch',

'ia_archive',

'Google',

'baidu'

);

$useragent = $_SERVER['HTTP_USER_AGENT'];

if(!empty($useragent)) {

foreach ($bots as $lookfor) {

if (stristr($useragent, $lookfor) !== false) {

$is_robots = 1;

break;

}

}

}

// 如果当前文章/页面禁止搜索引擎抓取,返回404

// 当然你可以改成403

if($is_robots) {

echo "\n";

}

}

}

}

add_action('wp_head', 'do_ludou_allow_se');

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线