如何让Web站点页面进入搜索索引所需的知识？

优采云发布时间: 2021-08-14 02:17

　　作为网站开发人员，让您的网站引起搜索引擎的注意是成功的关键因素之一。在这个由四部分组成的系列中，您将学习有机优化网站所需的基础知识。在本系列的第 3 部分中，您将学习如何将网站的页面添加到搜索索引中。

　　网络搜索是一个热点，而且越来越流行。四分之三的网络用户经常搜索，64% 的网络用户使用搜索作为他们查找信息的主要方法（参见中相关研究的链接）。这些用户会找到您的网站吗？您的网站会错失良机吗？

　　在本系列的前两部分中，Jennette Banks 概述了搜索营销（第 1 部分）以及关键词规划和优化的基础知识（第 2 部分）。

　　在第 3 部分中，我们将重点介绍将网站页面纳入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 等搜索引擎在用户执行搜索时使用的数据库。如果一个网页没有被搜索引擎收录，那么引擎就不会找到它，所以将页面加入索引是SEO成功的关键一步。

　　我网站上有多少页面进入了索引？

　　如果你想知道你网站上有多少页面进入了索引，那么先做一个简单的测试。转到 Google 或您最喜欢的搜索引擎并搜索您公司的名称。如果公司名称是通用名称（例如 AAA Plumbing 或 Acme Industries），则添加地区（AAA Plumbing Peoria）或公司最著名的产品（Acme Industries sheet metal），看看是否能找到您的网站。

　　如果您发现某个网站根本没有收录在搜索索引中，通常有两个原因：

　　如果幸运的话，当您在搜索引擎中输入公司名称时，您至少会在您的网站上找到一个页面。通常情况下，任何特定的搜索引擎只索引了您的某些页面，但如果几乎所有页面都被索引会更好。未编入索引的页面越多，您网站的潜在访问者就越有可能转向您的竞争对手（如果他们的页面已编入索引）。

　　收录率

　　首先计算收录率，即被搜索引擎收录的页面占总页面数的百分比。当然，理想的收录率是100%，但低一点也可以。如果搜索索引中收录的页面少于 50%，则必须认真对待。

　　要计算收录率，请将搜索引擎索引中的页面数除以您网站上的总页面数。如果您的网站相当小，估计网站上的页面总数可能很容易，但对于大型网站，有时很难找出有多少页面。对于大型网站，有几种方法可以估算页面数：

　　在估计网站的大小后，需要找出网站上有多少页面被索引。谷歌、雅虎！ Search 和 MSN Search 都提供了“site:”操作符，它会报告您需要知道的信息。输入site:后跟你的域名（如site:），查看返回的结果。一个更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool（请参阅参考资料），它显示任何站点的每个搜索索引中的页面数。

　　爬虫路径

　　如果计算收录率的结果不好，我该怎么办？首先，让我们回顾一下搜索引擎如何索引页面。搜索引擎使用专门设计的程序，称为蜘蛛程序或爬虫程序来检查网站上的页面。

　　爬虫采集每个页面的HTML并记录到其他页面的链接，以便日后采集这些页面的HTML。你可以想象，经过足够长的时间，爬虫最终会找到网络上的每一个页面（至少每一个链接到其他页面的页面）。获取页面，找到页面上的所有链接，然后获取链接到的那些页面。这个过程被称为“在网络上爬行”。

　　因为爬虫是这样工作的，创建到每个页面的链接可以简化使站点被索引的任务——我们称这些技术为蜘蛛路径。您的站点已经收录路径，并且您可能已经拥有最重要的爬虫路径类型：站点地图。如果站点只收录几个页面，那么站点地图可以列出并链接到站点上的每个页面。

　　但是，站点地图的链接不应超过 100 个，因此较大的站点地图必须链接到类别页面，然后链接到站点上的其他页面。最大的网站通常被划分为每个国家的子站点，这需要一个特殊的站点地图，称为国家地图，其中列出了每个国家的名称和每个国家站点主页的链接。爬虫非常喜欢这种技术。（请参阅中型和大型站点地图示例。）

　　站点地图只有在爬虫到达您的站点时才会起作用，但有更主动的方法来索引页面。谷歌和雅虎！提供专门用于索引页面的收录程序。 Google 的测试版程序称为 Sitemaps（请参阅参考资料），它是免费的，并且提供了多种方法来通知 Google 抓取工具页面的位置。您甚至可以要求 Google 更频繁地更新您的某些页面。雅虎！提供付费的收录程序 SiteMatch（请参阅参考资料），它承诺在 48 小时内重新索引您的页面。（Google 没有对时间做出承诺。）

　　RSS 提要提供了另一种在页面发布时快速索引页面的方法。使用 Ping-O-Matic！（请参阅）通知搜索引擎 RSS 提要中有新条目。新条目通常会在一两天内编入索引。

　　清理爬虫路径

　　徒步团队必须让开拓者探索并标记前进的道路，但开拓者必须经常清理这些路径，以免小径被破坏或荒废。爬虫路径相同；除非经常检查，否则很可能会被屏蔽。

　　如果忽略爬虫的工作原理，爬虫路径很容易成为爬虫陷阱。对人们有益的页面可能会阻碍爬虫。爬虫是自动的，所以它不会像人类访客一样填写注册表。如果链接到网站页面所需的操作不仅仅是遵循 HTML 锚标记，则该链接可能对爬虫隐藏。

　　这意味着 JavaScript、Flash、框架和 cookie 也会导致问题。如果没有这些技术，您的网页根本无法显示，那么该网页将不会被爬虫编入索引。另外，如果用户需要这些技术来使用链接，那么爬虫将无法跟踪链接。

　　爬虫只能查看 HTML 代码，就像视障用户使用的屏幕阅读器一样。要了解爬虫所看到的内容，您可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持，或者使用文本模式的 Lynx 浏览器或 Lynx 查看器（请参阅参考资料）。如果可以使用 Lynx 完整显示页面，则它们很可能会被编入索引。根本不显示或显示不完整的页面是不容易被搜索引擎发现的。

　　即使您避免使用这些麻烦的技术，您仍然可能会阻碍爬虫。爬虫对 HTML 代码的正确性有非常严格的要求——浏览器的容忍度要高得多。在浏览器中看起来不错的页面可能会阻碍爬虫，这会使爬虫不可见或误解整个页面或页面的一部分。 HTML 检查服务（请参阅）和 Firefox 浏览器可以发现这些错误。

　　您还必须注意爬虫对每个页面的内容大小的限制。大多数爬虫只索引页面中的前 100,000 个字符。这个数字听起来很大，但如果你在页面中添加 JavaScript 程序和样式表，或者把整个用户手册放到一个 PDF 文件中，你很快就会达到这个限制。因此，您可以考虑将手册分成每个章节的 PDF，并将所有 JavaScript 和样式表代码转移到一个外部文件中。

　　欢迎使用爬虫

　　清除爬虫路径后，必须确保爬虫流行。最明显的建议是确保站点正在运行并且能够在爬虫到达时做出响应。由于您不知道爬虫何时会访问您的站点，因此频繁关闭（即“维护时间窗口”）是有风险的。如果在站点宕机时爬虫来了，它会认为该站点无效并移动到其他站点。去的网站。

　　如果网站的响应速度很慢，几乎和完全失败一样糟糕，因为爬虫正在按计划运行。对于速度较慢的网站，它们索引的页面较少，访问频率也较低，因为它们可以在相同的时间内在其他地方处理更多的页面。

　　即使您的网站通常是不间断且快速的，由于机器人指令编程不正确，仍有可能将爬虫拒之门外。您可以使用robots.txt文件让爬虫避开某些页面、目录或整个站点，所以如果站点的指令写错了，爬虫可能会被赶走。此外，每个页面都可以有一个robots 标签，它指示爬虫是否将此页面编入索引以及是否跟踪其中的链接（请参阅。）

　　保留爬虫

　　即使您的网站欢迎爬虫，也不能保证将来不会放弃该网站。

　　可能阻碍抓取工具的一个问题是对页面使用长动态网址。许多动态 URL 需要参数来选择要显示的内容，例如加拿大目录中产品 2372 的法语描述。爬虫对这些动态站点很反感，因为参数组合几乎是无限的——爬虫不想在站点中迷路。当抓取工具看到超过 1,000 个字符或超过两个参数的网址时，他们往往会跳过这些页面。

　　如果您的网站有这些有问题的网址，您必须参考网络服务器的文档，研究如何更改网址格式以满足爬虫。例如Apache使用“mod_rewrite”函数（见）修改URL，其他Web服务器也有类似的功能。

　　所谓的“会话标识符”也可以吓跑爬虫。一些程序员在 URL 中创建一个参数来捕获有关当前访问者的信息（通常由“id=”加上唯一的字母数字代码标识）。爬虫者讨厌这种技术，因为它会导致数百个不同的 URL 显示相同的内容。程序员应该将此信息存储在 Web 应用程序服务器的会话层或 cookie 中。（但是，如前所述，显示页面不应需要 cookie，否则爬虫无法对其进行索引。）

　　分析完动态页面后，还要注意另一个可能给页面带来麻烦的问题。重定向此技术告诉浏览器和爬虫请求的 URL 已更改。例如，如果您的公司更名，它也可能更改网站的域名，因此重定向可以将所有访问者从旧 URL 重定向到新 URL。但是，爬虫只有一种有效的重定向方法：服务器端重定向，也称为 301 重定向（请参阅参考资料）。其他重定向技术对浏览器有效，例如元刷新重定向和 JavaScript 重定向，但爬虫无法遵循这些重定向路径，这将阻止重定向的页面被索引。

　　结论

　　显然，页面必须先被索引，搜索引擎才能找到它们，但大多数页面都没有被索引。 1999 年，大约 16% 的网页被搜索引擎收录，但几年后，这一比例显着下降：2001 年，估计只有0.03% 的网页被收录。

　　由于这个比率非常低，您网站上可能有很多页面未被编入索引，因此这些页面不太可能被搜索到。您现在知道如何解决这个问题了。

　　但是，仅仅输入搜索索引是不够的。在本 SEO 系列的第 4 部分中，我们将讨论一些大型网站独有的搜索营销问题，例如如何优化动态页面、如何跨跨国网站工作以及如何让大型团队协同工作。

　　参考资料

　　学习

　　获得产品和技术

　　讨论

　　作者简介

　　Bill 负责一个搜索引擎营销策略师团队，他们帮助财富 200 强公司以全球视角管理他们的 SEM 规划。 Bill 目前被认为是企业和国际 SEM 战略方面的最佳专家，他是备受赞誉的 Search Engine Marketing, Inc.（由 IBM Press 出版）的合著者。比尔获得了学*敏*感*词*马里兰大学（东京校区）亚洲研究和日语学位，加州州立大学（洛杉矶）国际商务学*敏*感*词*。他还是海军陆战队的老兵。

　　Search Engine Marketing, Inc. 的合著者 Mike Moran 是一位 IBM 杰出工程师。在IBM Research、Lotus等IBM软件从事搜索技术研究20余年。 1989年他带领产品团队开发出第一个商业语言搜索引擎，并在搜索和检索技术方面获得了四项专利。他领导了最初的搜索引擎营销策略的制定和网站上搜索技术的整合。除了搜索技术，他还在内容管理、个性化和 Web 规模项目中发挥了开创性作用。 Mike 目前是 Web Experience 的经理，负责网站设计、信息架构、技术架构和运营。

0

2021-08-14

搜索引擎优化 pdf

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何让Web站点页面进入搜索索引所需的知识？

0 个评论

发起人