如何让Web站点页面进入搜索索引所需的知识?
优采云 发布时间: 2021-08-14 02:17如何让Web站点页面进入搜索索引所需的知识?
作为网站开发人员,让您的网站引起搜索引擎的注意是成功的关键因素之一。在这个由四部分组成的系列中,您将学习有机优化网站所需的基础知识。在本系列的第 3 部分中,您将学习如何将网站的页面添加到搜索索引中。
网络搜索是一个热点,而且越来越流行。四分之三的网络用户经常搜索,64% 的网络用户使用搜索作为他们查找信息的主要方法(参见 中相关研究的链接)。这些用户会找到您的网站吗?您的网站会错失良机吗?
在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及关键词 规划和优化的基础知识(第 2 部分)。
在第 3 部分中,我们将重点介绍将网站页面纳入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 等搜索引擎在用户执行搜索时使用的数据库。如果一个网页没有被搜索引擎收录,那么引擎就不会找到它,所以将页面加入索引是SEO成功的关键一步。
我网站上有多少页面进入了索引?
如果你想知道你网站上有多少页面进入了索引,那么先做一个简单的测试。转到 Google 或您最喜欢的搜索引擎并搜索您公司的名称。如果公司名称是通用名称(例如 AAA Plumbing 或 Acme Industries),则添加地区(AAA Plumbing Peoria)或公司最著名的产品(Acme Industries sheet metal),看看是否能找到您的网站。
如果您发现某个网站根本没有收录在搜索索引中,通常有两个原因:
如果幸运的话,当您在搜索引擎中输入公司名称时,您至少会在您的网站上找到一个页面。通常情况下,任何特定的搜索引擎只索引了您的某些页面,但如果几乎所有页面都被索引会更好。未编入索引的页面越多,您网站的潜在访问者就越有可能转向您的竞争对手(如果他们的页面已编入索引)。
收录率
首先计算收录率,即被搜索引擎收录的页面占总页面数的百分比。当然,理想的收录率是100%,但低一点也可以。如果搜索索引中收录的页面少于 50%,则必须认真对待。
要计算收录率,请将搜索引擎索引中的页面数除以您网站上的总页面数。如果您的网站相当小,估计网站上的页面总数可能很容易,但对于大型网站,有时很难找出有多少页面。对于大型网站,有几种方法可以估算页面数:
在估计网站的大小后,需要找出网站上有多少页面被索引。谷歌、雅虎! Search 和 MSN Search 都提供了“site:”操作符,它会报告您需要知道的信息。输入site:后跟你的域名(如site:),查看返回的结果。一个更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool(请参阅 参考资料),它显示任何站点的每个搜索索引中的页面数。
爬虫路径
如果计算收录率的结果不好,我该怎么办?首先,让我们回顾一下搜索引擎如何索引页面。搜索引擎使用专门设计的程序,称为蜘蛛程序或爬虫程序来检查网站上的页面。
爬虫采集每个页面的HTML并记录到其他页面的链接,以便日后采集这些页面的HTML。你可以想象,经过足够长的时间,爬虫最终会找到网络上的每一个页面(至少每一个链接到其他页面的页面)。获取页面,找到页面上的所有链接,然后获取链接到的那些页面。这个过程被称为“在网络上爬行”。
因为爬虫是这样工作的,创建到每个页面的链接可以简化使站点被索引的任务——我们称这些技术为蜘蛛路径。您的站点已经收录路径,并且您可能已经拥有最重要的爬虫路径类型:站点地图。如果站点只收录几个页面,那么站点地图可以列出并链接到站点上的每个页面。
但是,站点地图的链接不应超过 100 个,因此较大的站点地图必须链接到类别页面,然后链接到站点上的其他页面。最大的网站通常被划分为每个国家的子站点,这需要一个特殊的站点地图,称为国家地图,其中列出了每个国家的名称和每个国家站点主页的链接。爬虫非常喜欢这种技术。 (请参阅中型和大型站点地图示例。)
站点地图只有在爬虫到达您的站点时才会起作用,但有更主动的方法来索引页面。谷歌和雅虎!提供专门用于索引页面的收录程序。 Google 的测试版程序称为 Sitemaps(请参阅 参考资料),它是免费的,并且提供了多种方法来通知 Google 抓取工具页面的位置。您甚至可以要求 Google 更频繁地更新您的某些页面。雅虎!提供付费的收录程序 SiteMatch(请参阅 参考资料),它承诺在 48 小时内重新索引您的页面。 (Google 没有对时间做出承诺。)
RSS 提要提供了另一种在页面发布时快速索引页面的方法。使用 Ping-O-Matic! (请参阅)通知搜索引擎 RSS 提要中有新条目。新条目通常会在一两天内编入索引。
清理爬虫路径
徒步团队必须让开拓者探索并标记前进的道路,但开拓者必须经常清理这些路径,以免小径被破坏或荒废。爬虫路径相同;除非经常检查,否则很可能会被屏蔽。
如果忽略爬虫的工作原理,爬虫路径很容易成为爬虫陷阱。对人们有益的页面可能会阻碍爬虫。爬虫是自动的,所以它不会像人类访客一样填写注册表。如果链接到网站页面所需的操作不仅仅是遵循 HTML 锚标记,则该链接可能对爬虫隐藏。
这意味着 JavaScript、Flash、框架和 cookie 也会导致问题。如果没有这些技术,您的网页根本无法显示,那么该网页将不会被爬虫编入索引。另外,如果用户需要这些技术来使用链接,那么爬虫将无法跟踪链接。
爬虫只能查看 HTML 代码,就像视障用户使用的屏幕阅读器一样。要了解爬虫所看到的内容,您可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx 浏览器或 Lynx 查看器(请参阅 参考资料)。如果可以使用 Lynx 完整显示页面,则它们很可能会被编入索引。根本不显示或显示不完整的页面是不容易被搜索引擎发现的。
即使您避免使用这些麻烦的技术,您仍然可能会阻碍爬虫。爬虫对 HTML 代码的正确性有非常严格的要求——浏览器的容忍度要高得多。在浏览器中看起来不错的页面可能会阻碍爬虫,这会使爬虫不可见或误解整个页面或页面的一部分。 HTML 检查服务(请参阅)和 Firefox 浏览器可以发现这些错误。
您还必须注意爬虫对每个页面的内容大小的限制。大多数爬虫只索引页面中的前 100,000 个字符。这个数字听起来很大,但如果你在页面中添加 JavaScript 程序和样式表,或者把整个用户手册放到一个 PDF 文件中,你很快就会达到这个限制。因此,您可以考虑将手册分成每个章节的 PDF,并将所有 JavaScript 和样式表代码转移到一个外部文件中。
欢迎使用爬虫
清除爬虫路径后,必须确保爬虫流行。最明显的建议是确保站点正在运行并且能够在爬虫到达时做出响应。由于您不知道爬虫何时会访问您的站点,因此频繁关闭(即“维护时间窗口”)是有风险的。如果在站点宕机时爬虫来了,它会认为该站点无效并移动到其他站点。去的网站。
如果网站的响应速度很慢,几乎和完全失败一样糟糕,因为爬虫正在按计划运行。对于速度较慢的网站,它们索引的页面较少,访问频率也较低,因为它们可以在相同的时间内在其他地方处理更多的页面。
即使您的网站通常是不间断且快速的,由于机器人指令编程不正确,仍有可能将爬虫拒之门外。您可以使用robots.txt文件让爬虫避开某些页面、目录或整个站点,所以如果站点的指令写错了,爬虫可能会被赶走。此外,每个页面都可以有一个robots 标签,它指示爬虫是否将此页面编入索引以及是否跟踪其中的链接(请参阅 。)
保留爬虫
即使您的网站欢迎爬虫,也不能保证将来不会放弃该网站。
可能阻碍抓取工具的一个问题是对页面使用长动态网址。许多动态 URL 需要参数来选择要显示的内容,例如加拿大目录中产品 2372 的法语描述。爬虫对这些动态站点很反感,因为参数组合几乎是无限的——爬虫不想在站点中迷路。当抓取工具看到超过 1,000 个字符或超过两个参数的网址时,他们往往会跳过这些页面。
如果您的网站有这些有问题的网址,您必须参考网络服务器的文档,研究如何更改网址格式以满足爬虫。例如Apache使用“mod_rewrite”函数(见)修改URL,其他Web服务器也有类似的功能。
所谓的“会话标识符”也可以吓跑爬虫。一些程序员在 URL 中创建一个参数来捕获有关当前访问者的信息(通常由“id=”加上唯一的字母数字代码标识)。爬虫者讨厌这种技术,因为它会导致数百个不同的 URL 显示相同的内容。程序员应该将此信息存储在 Web 应用程序服务器的会话层或 cookie 中。 (但是,如前所述,显示页面不应需要 cookie,否则爬虫无法对其进行索引。)
分析完动态页面后,还要注意另一个可能给页面带来麻烦的问题。重定向 此技术告诉浏览器和爬虫请求的 URL 已更改。例如,如果您的公司更名,它也可能更改网站的域名,因此重定向可以将所有访问者从旧 URL 重定向到新 URL。但是,爬虫只有一种有效的重定向方法:服务器端重定向,也称为 301 重定向(请参阅 参考资料)。其他重定向技术对浏览器有效,例如元刷新重定向和 JavaScript 重定向,但爬虫无法遵循这些重定向路径,这将阻止重定向的页面被索引。
结论
显然,页面必须先被索引,搜索引擎才能找到它们,但大多数页面都没有被索引。 1999 年,大约 16% 的网页被搜索引擎收录,但几年后,这一比例显着下降:2001 年,估计只有0.03% 的网页被收录。
由于这个比率非常低,您网站上可能有很多页面未被编入索引,因此这些页面不太可能被搜索到。您现在知道如何解决这个问题了。
但是,仅仅输入搜索索引是不够的。在本 SEO 系列的第 4 部分中,我们将讨论一些大型网站独有的搜索营销问题,例如如何优化动态页面、如何跨跨国网站工作以及如何让大型团队协同工作。
参考资料
学习
获得产品和技术
讨论
作者简介
Bill 负责一个搜索引擎营销策略师团队,他们帮助财富 200 强公司以全球视角管理他们的 SEM 规划。 Bill 目前被认为是企业和国际 SEM 战略方面的最佳专家,他是备受赞誉的 Search Engine Marketing, Inc.(由 IBM Press 出版)的合著者。比尔获得了学*敏*感*词*马里兰大学(东京校区)亚洲研究和日语学位,加州州立大学(洛杉矶)国际商务学*敏*感*词*。他还是海军陆战队的老兵。
Search Engine Marketing, Inc. 的合著者 Mike Moran 是一位 IBM 杰出工程师。在IBM Research、Lotus等IBM软件从事搜索技术研究20余年。 1989年他带领产品团队开发出第一个商业语言搜索引擎,并在搜索和检索技术方面获得了四项专利。他领导了最初的搜索引擎营销策略的制定和网站上搜索技术的整合。除了搜索技术,他还在内容管理、个性化和 Web 规模项目中发挥了开创性作用。 Mike 目前是 Web Experience 的经理,负责网站设计、信息架构、技术架构和运营。