网页抓取 加密html(百度搜索引擎https站点如何建设才能对百度友好友好? )

优采云 发布时间: 2022-04-10 01:32

  网页抓取 加密html(百度搜索引擎https站点如何建设才能对百度友好友好?

)

  大家都知道百度等搜索引擎无法识别https页面。很多朋友需要为网站建立安全的传输方式,但又担心网站的收录不好。所以现在百度官方给了我们答案,以下是百度站长平台发布的《如何建立一个对百度友好的HTTPS站点》全文:

  百度搜索引擎目前并没有主动抓取 https 网页,所以大部分 https 网页不能是收录。但是如果网站必须使用https加密协议,怎么对百度搜索引擎友好呢?其实很简单:

  1.为需要百度搜索引擎收录搜索的https页面制作http无障碍版本。

  2.通过user-agent判断访问者,将Baiduspider引导到http页面。普通用户通过百度搜索引擎访问页面时,会通过301重定向到对应的https页面。如图,上图是http版的百度收录,下图是用户点击后会自动跳转到https版本。

  

  

  3、http版不只为首页制作。其他重要页面也需要制作http版本,并相互链​​接。这不应该发生:首页http页面上的链接仍然链接到https页面,导致Baiduspider无法继续爬取——我们遇到过这样的情况,整个首页只能收录一个首页网络。

  执行以下操作是错误的:链接

  4、一些不需要加密的内容,比如信息,可以通过二级域名承载。比如支付宝网站,核心加密内容放在https上,百度蜘蛛可以直接抓到的内容放在二级域名上。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线