网页抓取 加密html(Google默认是收录加密网页的网址,Google会抓取两种网址)
优采云 发布时间: 2021-10-26 13:05网页抓取 加密html(Google默认是收录加密网页的网址,Google会抓取两种网址)
现在谷歌已经决定默认使用 收录 来加密网页。
如果一个网页同时有来自其他网站的http和https外链网址指向它,谷歌会同时抓取这两个网址,无论哪种方式,更多的链接都会相同的去抓取页面,如果谷歌发现抓取的页面内容是一样的,只是单纯使用不同的端口,那么Google就会收录https URL。当然,这也有一些先决条件:
网页不收录非安全内容;robots.txt 不用于防止抓取内容;用户不会被重定向到不安全的网页;网页代码中的链接没有指向http页面;网页代码不收录 noindex 元标记;没有链接到正常的http URL;站点地图文件收录 https URL,而不是 URL 的 http 版本;当然,需要有效的证书。
在其官方建议中,Google 建议您使用重定向将 http URL 重定向到 https。您还可以添加 HSTS 标头以减少重定向次数。
在实际的网络环境中,在中国,我们经常看到这样的消息。网页显示时,会莫名其妙地出现弹窗,或者更换网页内容,网页上会出现来源不明的广告。会下载看起来正确的 URL,但不会下载要下载的内容。这些可以通过完全采用 https 来改进或避免。
另外:百度终于在去年底开始支持收录 https 网页。这是一个很大的改进。虽然晚了点,但还是晚点好。
我给广大站长的建议是全站开启https加密,去除网页中不安全的链接资源和链接,并正确配置网站,ssllab分数至少要90分或更多的。
您可以购买证书,Let's Encrypt 是免费的。