php禁止网页抓取(如何有效地、可靠地让“部分文章屏蔽搜索引擎”?)

优采云 发布时间: 2021-10-12 22:07

  php禁止网页抓取(如何有效地、可靠地让“部分文章屏蔽搜索引擎”?)

  WordWPress企业网站和WordWPress外贸企业网站在发布产品时可能会遇到大部分内容不变文章,只需要修改部分参数或图片即可那种网站文章发布,我们可以使用WordPress文章复制插件——Duplicate Post来实现。当然,有时我们不希望搜索引擎收录类似产品文章,这可能会稀释关键词的权重。我们需要有针对性地屏蔽部分文章,那么,如何有效、可靠地实现“部分文章屏蔽搜索引擎”呢?方法如下:

  robots.txt 文章页面块

  在网站的根目录下找到robots.txt文件,并在其中添加拦截代码。

  假设我想屏蔽/category/post-name.html,添加1行如下代码:

  Disallow: /category/post-name.html

  添加文章屏蔽选项

  在当前主题的functions.php文件中加入如下代码即可使用:

  文章/页面编辑页面添加选项

function wpyou_add_custom_box() {

if (function_exists('add_meta_box')) {

add_meta_box('wpyou_allow_se', '搜索引擎', 'wpyou_allow_se', 'post', 'side', 'low');

add_meta_box('wpyou_allow_se', '搜索引擎', 'wpyou_allow_se', 'page', 'side', 'low');

}

}

add_action('add_meta_boxes', 'wpyou_add_custom_box');

function wpyou_allow_se() {

global $post;

//添加验证字段

wp_nonce_field('wpyou_allow_se', 'wpyou_allow_se_nonce');

$meta_value = get_post_meta($post->ID, 'wpyou_allow_se', true);

if($meta_value)

echo ' 屏蔽搜索引擎';

else

echo ' 屏蔽搜索引擎';

}

// 保存选项设置

function wpyouse_save_postdata($post_id) {

// 验证

if ( !isset( $_POST['wpyou_allow_se_nonce']))

return $post_id;

$nonce = $_POST['wpyou_allow_se_nonce'];

// 验证字段是否合法

if (!wp_verify_nonce( $nonce, 'wpyou_allow_se'))

return $post_id;

// 判断是否自动保存

if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)

return $post_id;

// 验证用户权限

if ('page' == $_POST['post_type']) {

if ( !current_user_can('edit_page', $post_id))

return $post_id;

}

else {

if (!current_user_can('edit_post', $post_id))

return $post_id;

}

// 更新设置

if(!empty($_POST['wpyou-allow-se']))

update_post_meta($post_id, 'wpyou_allow_se', '1');

else

update_post_meta($post_id, 'wpyou_allow_se', '0');

}

add_action('save_post', 'wpyouse_save_postdata');

// 对于设置不允许抓取文章和页面

// 禁止搜索引擎抓取,返回404

function do_wpyou_allow_se() {

// 本功能只对文章和页面有效

if(is_singular()) {

global $post;

$is_robots = 0;

$wpyou_allow_se = get_post_meta($post->ID, 'wpyou_allow_se', true);

if(!empty($wpyou_allow_se)) {

// 下面是搜索引擎Agent判断关键字数组

// 有点简单,自己优化一下吧

$bots = array(

'Baiduspider',

'Googlebot',

'sogou spider',

'Sogou web spider',

'YodaoBot',

'Bingbot',

'Slurp',

'MSNBot',

'yahoo-blogs',

'psbot',

'Yandex',

'Yeti',

'blogsearch',

'EasouSpider',

'Mediapartners-Google'

);

$useragent = $_SERVER['HTTP_USER_AGENT'];

foreach ($bots as $lookfor) {

if (stristr($useragent, $lookfor) !== false) {

$is_robots = 1;

break;

}

}

// 如果当前文章/页面禁止搜索引擎抓取,返回404

if($is_robots) {

status_header(404);

exit;

}

}

}

}

add_action('wp', 'do_wpyou_allow_se');

  如何使用

  将上述代码添加到当前主题的functions.php文件后,我们就可以正常使用了,完全傻瓜式。在WordPress后台文章和页面的编辑页面,在右栏的底部,我们可以看到这样的复选框:

  

  如果当前文章/page 需要被搜索引擎禁止,直接勾选即可。

  喜欢 (4)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线