搜索引擎优化原理(您的Web站点会错过机会吗?SEO成功的关键一步)
优采云 发布时间: 2022-01-15 22:09搜索引擎优化原理(您的Web站点会错过机会吗?SEO成功的关键一步)
有关其他白帽 SEO 最佳实践,请参阅参考资料中的 Google 对 Web 管理员的要求。本系列的第 3 部分和第 4 部分将讨论其他 SEO 问题和解决方案。
第 3 部分:将网页纳入搜索引擎索引
网络搜索很热,而且越来越热。四分之三的网络用户经常搜索,64% 的用户使用搜索作为他们查找信息的主要方法(有关相关研究的链接,请参阅参考资料)。这些用户会找到您的网站吗?您的网站是否缺少机会?
在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及关键词规划和优化的基础知识(第 2 部分)。
在第 3 部分中,我们重点介绍了将网站页面纳入搜索索引所需了解的内容。搜索索引是 Google 和 Yahoo!® 等搜索引擎在用户进行搜索时使用的数据库。如果一个网页没有被搜索引擎索引,那么引擎就不会找到它,所以在索引中添加一个页面是 SEO 成功的关键步骤。
我网站上有多少页面被编入索引?
如果您想知道您网站上有多少页面被索引,请从一个简单的测试开始。转到 Google 或您选择的任何其他搜索引擎并搜索您公司的名称。如果公司名称是通用名称(例如 AAA Plumbing 或 Acme Industries),则添加地区(AAA Plumbing Peoria)或公司最知名的产品(Acme Industries 钣金),然后查看是否找到您的网站。
如果您发现一个网站在搜索中根本没有被索引,通常有两个原因:
如果幸运的话,在搜索引擎中输入您的公司名称会在您的网站上找到至少一个页面。通常情况下,任何特定的搜索引擎都只会索引您的部分页面,但如果您的几乎所有页面都被索引,那就更好了。未编入索引的页面越多,您网站的潜在访问者就越有可能转向您的竞争对手(如果他们的页面被编入索引)。
纳入率
首先,计算收录率,即被搜索引擎收录的页面占页面总数的百分比。当然,理想的收录率是 100%,但稍微低一点也是可以接受的。如果少于 50% 的页面收录在搜索索引中,请认真对待。
要计算收录率,请将搜索引擎索引中的页数除以您网站上的总页数。如果您的网站相当小,估计网站中的页面总数可能很容易,但对于大型网站,有时可能很难计算出有多少页面。对于大型网站,有几种方法可以估算页面数量:
在估计网站的大小之后,有必要找出网站中有多少页面被索引。谷歌,雅虎!搜索和 MSN 搜索都提供了“site:”运算符,用于报告您需要了解的内容。键入 site: 后跟您的域名(例如 site:)以查看返回的结果。一个更方便的工具是 Marketleap 的免费饱和度报告工具(请参阅参考资料),它显示任何站点的每个搜索索引中的页数。
爬虫路径
如果计算收录率的结果很糟糕怎么办?首先,让我们回顾一下搜索引擎如何索引页面。搜索引擎使用专门设计的程序,称为蜘蛛或爬虫来检查网站上的页面。
爬虫采集每个页面的 HTML 并记录到其他页面的链接,以便以后可以采集这些页面的 HTML。可以想象,经过足够的时间,爬虫最终会找到 Web 上的每个页面(至少是链接到其他页面的每个页面)。获取页面,找到页面上的所有链接,并获取链接到的那些页面,这个过程称为“爬网”。
因为这就是爬虫的工作方式,所以创建到每个页面的链接可以简化获取站点索引的任务——我们将这些技术称为蜘蛛路径。您的站点已经收录路径,并且可能是最重要的爬虫路径类型:站点地图。如果站点只收录几个页面,站点地图可以列出并链接到站点上的每个页面。
但是,站点地图不应超过 100 个链接,因此较大的站点地图必须链接到类别页面,然后再链接到站点上的其他页面。最大的网站通常会为每个国家划分子站点,这需要一个特殊的站点地图,称为国家地图,其中列出了每个国家的名称和每个国家站点主页的链接。爬虫非常喜欢这种技术。(请参阅参考资料中的大型站点地图示例。)
站点地图仅在您的站点上有爬虫时才有效,但是有更主动的方法可以使页面编入索引。谷歌和雅虎!提供专为使页面编入索引而设计的收录程序。Google 的测试程序称为站点地图(请参阅参考资料),它是免费的,并提供了多种方法来通知 Google 的爬虫某个页面的位置。您甚至可以为某些页面请求更频繁的索引更新。雅虎!提供付费收录程序 SiteMatch(请参阅参考资料),它承诺在 48 小时内重新索引您的页面。(谷歌不承诺时间。)
RSS 提要提供了另一种在页面发布时快速索引页面的方法。使用 Ping-O-Matic!(请参阅参考资料)通知搜索引擎 RSS 提要中的新条目,这些条目通常在一两天内被编入索引。
清理爬虫路径
徒步旅行队允许开拓者探索和标记前进的道路,但开拓者必须经常清理小径,以免小径受损或荒废。爬虫路径是一样的;除非经常检查它们,否则它们很可能会被阻止。
如果您忽略爬虫的工作方式,爬虫路径很容易成为爬虫陷阱。对人类来说看起来不错的页面可以阻止爬虫。爬虫是自动化的,因此不会像人类访客那样填写注册表单。如果链接到您网站上的某个页面需要的不仅仅是浏览 HTML 锚标记,则该链接可能对爬虫隐藏。
这意味着 JavaScript、Flash、框架和 cookie 也可能导致问题。如果您的网页在没有这些技术的情况下根本无法显示,那么这些页面将不会被爬虫索引。此外,如果用户需要这些技术来使用链接,则爬虫无法跟踪该链接。
爬虫只查看 HTML 代码,就像视障用户的屏幕阅读器一样。要了解爬虫所看到的内容,请在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx Browser 或 Lynx Viewer(请参阅参考资料)。如果页面可以使用 Lynx 完整显示,则它们很可能会被索引。根本不显示或显示非常不完整的页面不容易被搜索引擎找到。
即使你避开了这些麻烦的技术,你仍然可能会阻碍爬虫。爬虫对 HTML 代码的正确性非常严格——浏览器要宽容得多。在浏览器中看起来不错的页面可能会阻止爬虫,使其不可见或误解整个页面或部分页面。HTML Verification Service(请参阅参考资料)和Firefox 浏览器可以发现这些错误。
注意爬虫在每个页面上放置的内容大小限制也很重要。大多数爬虫只索引页面中的前 100,000 个字符。这个数字可能听起来很多,但是如果您将 JavaScript 程序和样式表添加到您的页面,或者将整个用户手册放入 PDF 文件中,您很快就会达到这个限制。因此,请考虑将手册拆分为每章一个 PDF,并将所有 JavaScript 和样式表代码移至外部文件。
欢迎来到爬虫
清理爬虫路径后,必须确保爬虫是受欢迎的。最明显的建议是确保网站正在运行并且能够在爬虫到达时做出响应。因为您不知道爬虫何时会访问您的站点,所以存在频繁中断的风险(即“维护窗口”),如果爬虫在您的站点关闭时到达,它会认为该站点已关闭并转到其他站点去。
如果站点响应非常慢,这几乎与完全失败一样糟糕,因为爬虫正在按计划运行。对于速度较慢的站点,它们索引的页面更少并且被重新访问的频率更低,因为它们能够在相同的时间内在其他地方处理更多的页面。
即使您的站点通常不会停机且速度很快,但由于机器人指令编程不正确,爬虫仍然有可能被拒之门外。robots.txt 文件可用于告诉爬虫避开某些页面、目录或整个站点,因此如果站点的指令编写错误,爬虫可能会被丢弃。此外,每个页面都可以有一个 robots 标记,指示爬虫是否应该索引该页面以及是否跟踪其中的链接(请参阅参考资料。)
保持爬虫
即使您的网站欢迎爬虫,也不能保证将来不会放弃该网站。
可能阻碍爬虫的一个问题是对页面使用长动态 URL。许多动态 URL 需要参数来选择要显示的内容,例如加拿大产品目录中产品 2372 的法语描述。爬虫讨厌这些动态站点,因为参数组合几乎是无限的——爬虫不想迷失在一个站点中。当爬虫看到超过 1,000 个字符或具有两个以上参数的 URL 时,往往会跳过这些页面。
如果您的站点有这些有问题的 URL,您必须查阅 Web 服务器的文档以研究如何更改 URL 的形式以满足爬虫的要求。例如,Apache 使用“mod_rewrite”函数(参见参考资料)来修改 URL,其他 Web 服务器也有类似的函数。
所谓的“会话标识符”也会吓跑爬虫。一些程序员在 URL 中创建一个参数,用于捕获有关当前访问者的信息(通常由“id=”标识,后跟唯一的字母数字代码)。爬虫讨厌这种技术,因为它会导致数百个不同的 URL 显示相同的内容。程序员应将此信息存储在 Web 应用程序服务器的会话层或 cookie 中。(但是,如前所述,显示页面不需要 cookie,否则爬虫将无法索引它。)
在分析了动态页面之后,还有一个问题可以给页面带来麻烦。重定向是一种告诉浏览器和爬虫请求的 URL 已更改的技术。例如,如果您的公司更改了名称,它也可能更改网站的域名,因此重定向可以将所有访问者从旧 URL 发送到新 URL。但是,只有一种重定向方法适用于爬虫:服务器端重定向,也称为 301 重定向(请参阅参考资料)。其他重定向技术适用于浏览器,例如元刷新重定向和 JavaScript 重定向,但爬虫无法遵循这些重定向的路径,这将阻止重定向的页面被索引以进行搜索。
第 4 部分:改进大型网站的搜索营销
你的网站有多大?几千页?数百万页?如果您有超过几千页的页面,那么您在 SEO 方面会遇到一些小型网站所没有的特殊问题。让我们谈谈如何为大型网站做成功的 SEO。
大型网站对 SEO 提出了一些新的挑战。如果您可以将整个网络团队聚集在一个会议室中,那么您的网站就不会那么大。您的业务可能非常成功,但您的问题与我们在四部分 SEO 系列中探讨的问题不同。
在第 1 部分和第 2 部分中,Jennette Banks 概述了搜索营销以及 关键词 规划和优化的基础知识。在第 3 部分中,我们专注于将页面放入搜索索引。在这三篇文章 文章 中,您看到了所有网站(无论大小)必须做什么才能吸引 Google 等 Internet 搜索引擎的注意。然而,大型网站确实有所作为。如果您的网站由数千甚至数百万页面组成,您将遇到这些特殊的 SEO 挑战。
在第 4 部分中,我们将解决特定于大型网站的问题。我们将讨论为什么大型 Web 团队维护大型网站会导致搜索营销出现问题,我们将讨论全球化网站和具有许多动态网页的网站的技术挑战。
说服大型组织专注于搜索
大型网站的 SEO 是有问题的,因为需要许多不同的团队来采取适当的步骤才能使 SEO 成功(请参阅参考资料)。无论网站和 Web 团队如何组织,它们都被分成组,而这些组可能会导致问题。根据您的站点,您可能会遇到以下部分或部分问题:
尽管这看起来令人生畏,但可以在一个网站上组织多个 Web 组以像一个单一的搜索营销团队一样工作。可以使团队一致行动,以免分心。正如本系列前面的 文章 中所述,每个网站所有者都必须采取一些重要步骤来确保搜索营销成功,但大型网站需要更有条理的方法:
当然,这种组织变革会造成一定的压力。但是,如果您将整个网络团队聚集在一起并使用正确的做法,您的大型网站将获得良好的声誉(让搜索者愿意点击您的页面)、高质量的内容(让其他网站愿意链接到您的页面) ) 和更高的营销预算(允许投资于更好的设计和技术)。有关将团队组织在一起的更多信息,请参阅参考资料。
成功的关键是说服力。计算增加的网站流量将带来多少好处,以说明搜索改进的价值。通过告诉每个人您的竞争对手在搜索结果中的排名比您的业务高多少,给每个人一种紧迫感。让团队作为搜索者自己体验一下,这样他们就可以理解为什么搜索改进如此重要。请记住,没有人打算破坏您的搜索改进计划——他们只是没有意识到这项工作的价值。你越充分地向他们解释这些工作是做什么的,让他们参与进来,你就会越快看到结果。
说服团队
在这方面投入更多的精力。您知道在贵公司推广新想法的最佳方式是什么吗?您的组织可以发布电子邮件通讯吗?开会?博客?播客?网络研究?还是您需要更个性化的*敏*感*词*?如果需要,可以为每个区域办事处制作 PowerPoint 幻灯片。通过确保可靠地发送和接收消息来改变团队的工作方式。
一旦团队成员明白他们一直在考虑 SEO 原则,未来可能会面临两大挑战:如何在全球范围内进行搜索营销以及如何处理动态网站。
接触全球观众
在一个国家/地区使用一种语言进行搜索营销可能很困难,并且随着网站地址的国家和语言数量的增加,问题会成倍增加。让我们先谈谈国家,然后再谈语言。
搜索者通常希望将搜索结果限制在某个国家/地区,尤其是在计划在线购物时:他们希望在自己的国家/地区找到以本国货币进行交易的供应商。这很简单,不是吗?不完全的。对于自然搜索,判断每个页面的正确国家不能仅仅依靠搜索引擎的猜测。
那么谷歌和其他搜索引擎是如何猜测一个页面的国家的呢?他们使用站点域名的 IP 地址 ("") 来确定站点 Web 服务器所在的国家/地区(请参阅参考资料)。如果泰国页面实际上是在泰国,那么没问题。如果为了省钱,把*敏*感*词*的所有页面都放在中国,搜索引擎就会误认为这些泰国页面是中国的。
实际上,搜索引擎比这更聪明一点,但只是一点点。除了查看服务器所在的国家之外,他们还查看顶级域(.com、.de 等)来确定国家。无论页面位于何处,在 URL 中使用国家顶级域名(例如德国的“de”)的页面(例如“”)都被视为属于该国家/地区。
不幸的是,大多数全球化网站的每个页面都使用“.com”顶级域。例如IBM的德国主页是“”,除非页面放在德国,否则搜索引擎不会意识到该页面来自德国。这个问题很重要,因为如果搜索者将结果限制为来自德国的页面,他们将找不到来自 IBM 的页面。
幸运的是,有经验的搜索者已经习惯了搜索引擎的这种陷阱,以至于他们经常搜索用德语(而不是来自德国)编写的页面以找到他们正在寻找的内容。从长远来看,搜索引擎可能会更聪明地识别 IBM 的德国主页属于德国,到那时,搜索者就不需要这么有经验了。
语言问题
Google 和 Yahoo!™ 是美国的大型搜索引擎,但世界其他地区呢?Google 实际上是许多国家/地区的第一名,但也要注意在一个或两个国家/地区主导市场的本地搜索引擎(请参阅参考资料)。请务必参考 Search Engine Watch 报告(请参阅参考资料),了解每个国家市场中搜索引擎份额的分布情况,这样您就可以将您的 SEO 工作定位到正确的搜索引擎并衡量来自正确搜索引擎的流量。
搜索引擎要确定页面的国家并不容易,但它们在检测页面语言方面要好得多。搜索引擎一般通过三个指标来判断一个页面的语言:它的语言元标记,比如日语;其字符编码,例如;和内容分析。由于页面上的语言和字符编码通常不正确,因此仅当搜索引擎无法通过分析页面上的单词模式来识别语言时才使用此信息(请参阅参考资料)。
在大多数情况下,搜索引擎将正确检测页面的语言,而无需您采取任何行动。但是,对于单词很少的页面,在页面上正确编写语言和字符集元标记很重要;否则,当搜索者查找以特定语言编写的页面时,搜索引擎将不会收录您的页面。
但是让搜索引擎正确检测页面的语言仅仅是开始。如果您用英语执行所有 SEO 任务并将结果简单地翻译成其他语言,您将遇到问题。假设您为您的产品选择了最流行的英语 关键词,然后将其翻译成德语:这并不能保证您选择了最流行的德语单词。翻译后的词在语言上是正确的,但不一定最适合搜索。如果您选择含义正确但在德语 SEO 工作中不常使用的 关键词,效果会大打折扣(请参阅参考资料)。
即使一个页面的英文版本经过精心处理以收录正确的关键词,并且在每个页面上使用了适量的关键词,也不要期望标准的翻译过程会保持英文优化结果。德语页面必须以与英语页面相同的方式进行优化,以获得类似的 SEO 结果。
在开展全球搜索营销活动以保持竞争优势时,请牢记这些有关语言和国家/地区的提示。
如何处理动态网站?
大型网站通常会加载动态页面——它们使大型网站更容易维护新鲜的内容和设计。但是,针对动态页面进行优化更加困难。
Google 以相同的方式处理动态和静态页面的内容,因此本系列前面的 文章 中讨论的所有内容优化技术也适用于动态页面。
对于静态页面,作者只需要编辑收录页面内容的 HTML 文件——例如,在页面标题中添加 关键词。动态页面并不是那么简单。因为动态页面是由程序动态生成的,所以页面的内容来自两种不同类型的来源:
为了优化动态页面上的内容,首先需要在修改内容之前找出内容的来源。内容由负责更新数据库的团队管理——可能是内容管理系统的作者,或者是产品目录的数据录入员。
另一方面,模板通常由 Web 开发人员控制。在某些情况下,模板是可以轻松更新的单个文件——这是大多数内容管理系统所做的。在其他时候,HTML 存储在软件本身中,因此程序员必须修改软件才能更改 HTML。
与修改静态页面相比,修改动态页面往往需要更多的精力和时间来说服团队。这是个坏消息。好消息是,如果一个团队被说服修改一个动态页面,他们通常会修改所有动态页面。对于静态页面,修改一个页面只影响这个页面。使用数据库中的内容通常还可以简化质量控制,因为数据输入程序比静态页面的 HTML 编辑器更容易检查输入。
结束语
搜索引擎优化具有挑战性,在大型网站上,挑战成倍增加。有这么多团队同时参与网站的管理,很难让他们都朝着同一个方向工作。此外,多个国家和动态页面增加了复杂性。
但是,如果您以前认为 SEO 在大型网站上不可行,那么您现在应该知道这是可能的,并且您应该知道如何去做。
参考
学习