php抓取网页匹配url(Googlewebmaster内置多语言功能判断URL参数、Cookies、HTTP_ACCEPT)
优采云 发布时间: 2022-02-07 21:03php抓取网页匹配url(Googlewebmaster内置多语言功能判断URL参数、Cookies、HTTP_ACCEPT)
前言
ThinkPHP内置多语言功能,但通过判断URL参数、Cookies、HTTP_ACCEPT_LANGUAGE请求参数返回语言包。由于多种语言的url是固定的,所以搜索引擎爬取页面时,页面返回的语言取决于爬虫携带的请求头,对SEO有一定的影响,很难全面收录@ >各种语言的版本。例如,谷歌站长支持的文章“管理多个区域和语言网站”提到:
Google 建议不要使用 cookie 或浏览器设置来调整页面内容的语言,而是为页面的每个语言版本使用不同的 URL。
如果您想根据语言设置动态更改内容或重新路由用户,请注意 Google 可能无法找到并抓取您的所有变体。这是因为 Googlebot 抓取工具通常来自美国。另外,爬虫在发送 HTTP 请求时没有在请求头中设置 Accept-Language。
完成
示例项目可以在 文章 的底部下载。
进入tp6项目目录,首先在config\lang.php中设置默认语言和允许的语言列表。我已设置为允许简体中文、繁体中文和英文。
在config\route.php中设置路由配置,开启强制路由url_route_must并完全匹配route_complete_match,避免设置可能引起的冲突问题。
进入app目录,新建lang目录,编写语言包。
<p>1//zh_cn.php
2