搜网站内容(搜索引擎爬行器和索引程序本质上是软件程序(组图) )
优采云 发布时间: 2022-01-12 20:09搜网站内容(搜索引擎爬行器和索引程序本质上是软件程序(组图)
)
搜索引擎爬虫和索引程序本质上是软件程序。这些程序功能强大,可以抓取数万亿个网页,分析所有页面的内容以及这些页面之间的链接。然后,他们将这些数据组织到一系列数据库中,这些数据库可以在几分之一秒内响应用户搜索查询,从而提供一组非常合适的结果。
这是一项了不起的成就,但也有局限性。软件非常机械,它只能理解大多数网页的部分内容。搜索引擎爬虫分析网页的原创 HTML 形式。您可以通过浏览器查看页面的源代码来查看此表单。
图 2-14 和图 2-15 分别说明了如何在 Firefox 和 Internet Explorer,工具→Web 开发人员→页面源和页面→查看源中查看源代码。
在源代码中,您可以看到 Web 服务器发送到浏览器的实际页面代码。这也是搜索引擎爬虫所看到的(搜索引擎也会看到页面的 HTTP 标头)。在分析网页上用户可见的内容时,搜索引擎往往会忽略与导航和页面显示相关的代码,如图 2-16 所示,因为它们与网页内容无关。
搜索引擎爬虫对页面上的 HTML 文本最感兴趣。图 2-17 是一个网页的 HTML 文本示例(以主页为例)。
虽然图 2-17 仍然显示了一些 HTML 编码,但您可以清楚地看到代码中的“常规”文本。这是爬虫正在寻找的独特内容。
此外,搜索引擎还会阅读其他一些内容。其中之一是页面标题。页面排名最重要的因素之一是页面标题,它是显示在浏览器标题栏中(浏览器菜单和地址栏上方)的文本。
图 2-18 展示了爬虫看到的代码,以 Trip Advisor() 为例。
图 2-18 中的第一个圆圈标记了标题标签。标题标签通常用作搜索引擎结果中列出的标题。例如,图 2-19 显示了搜索“银行贷款”的结果。请注意,花旗银行和第一资本分别以与主页相同的标题列在搜索标题中。
当您获得 网站 的 DOMZ(开放目录)列表时,此规则可能存在例外情况。在这种情况下,搜索引擎可能会选择使用该目录中列表使用的页面标题,而不是页面上的标题标签。这可以通过使用 NOODP 标签来防止,它告诉搜索引擎不要使用 DMOZ 标题。
除了标题标签,搜索引擎还会读取 关键词 元标签(图 2-18 中的第二个圆圈标记)。在这里,可以指定与页面关联的 关键词 列表。多年前,垃圾邮件发送者(试图操纵搜索引擎结果、违反搜索引擎指南的人)破坏了这个标记的 SEO 价值,所以现在它已经无关紧要了。Google 根本不使用此标签进行排名,但 Bing 似乎将其用作参考(您可以在 -101-how-to-legally-hide-words-on-your-pages-for-search- 找到它引擎-12099 见相关细节)。由于缺乏 SEO 好处,不建议在 meta 关键词 上花费太多时间。
搜索引擎还读取描述元标记(由图 2-19 中的第三个圆圈标记)。描述元标记对搜索引擎排名没有影响(请参阅 参考资料),但起着关键作用,因为搜索引擎经常将其作为页面描述的一部分收录在搜索结果中。编写良好的描述元标签会对您在搜索列表中获得的点击量产生重大影响,因此花时间在元描述上是很有价值的。图 2-20 显示了在搜索“trip advisor”时作为搜索结果描述的元描述示例。
注意
用户的 关键词 通常在搜索结果中加粗(有时同义词也加粗)。图 2-20 是一个示例,TripAdvisor 在描述的开头以粗体显示。这称为上下文关键词(上下文中的关键字,KWIC)。
搜索引擎读取的第四个元素是图像的 alt 属性。alt 属性原本是用来在图片无法查看时显示一些内容的,对此有两种基本的受众:
看不清图片的视力障碍者。
为了更快地浏览网页而关闭图片的人(通常仅适用于没有宽带连接的人)。
支持视障人士成为使用 alt 属性的第一大理由。您可以通过访问 W3C网站Web Accessibility Initiative 网页 () 了解更多信息。
搜索引擎还读取图像标签的 alt 属性中收录的文本,该属性用于告诉网页在哪个元素上显示图像。下面是来自 Alchemist Media网站 的图像标签示例:
>
alt 属性(在本例中为 alt="Top Search Agencies")为图像提供了一些描述文本,标签的 src= 部分指示显示图像的位置。
搜索引擎读取alt属性的内容来帮助判断与图片相关的内容,对于页面内容的判断也有一定的意义。
搜索引擎读取的另一个元素是 NoScript 标记。一般来说,搜索引擎只会尝试以有限的方式解析出现在网页上的 JavaScript 代码(但这可能会随着时间而改变)。然而,一小部分用户(根据作者的经验约为 2%)在加载网页时禁用了 JavaScript。对于这些用户,除非页面收录 NoScript 标记,否则页面上的 JavaScript 将不会显示任何内容。
下面是一个简单的 JavaScript 示例来说明这种情况:
NoScript 部分显示您的浏览器不支持 JavaScript!(你的浏览器不支持Javascript)。搜索引擎会将此文本视为有关页面的相关信息。在此示例中,还有一个选项可让 NoScript 标记收录文本“毕竟这是一个小世界!” (毕竟世界很小!),更具描述性。NoScript 只能用于准确表示 JavaScript 内容。(搜索引擎可能会将放置在此标记中的其他内容或链接解释为垃圾邮件发送者行为。)此外,搜索引擎可能会将浏览器警告用作搜索结果中对您的页面的描述,这是一件坏事。
搜索引擎看不到的内容
搜索引擎没有“看到”的内容类型也值得研究。
例如,尽管搜索引擎可以检测到您正在显示图像,但除非您在前面描述的 alt 属性中提供信息,否则它们无法知道图像显示的内容。他们只知道图片的一些基本信息,比如图片中是否有人脸,或者图片是否收录*敏*感*词*内容(根据图片中有多少肉来判断)。搜索引擎无法知道一张图片显示的是巴特辛普森还是一艘船、一座房子还是一场龙卷风。此外,搜索引擎无法识别图像中显示的任何文本。搜索引擎正在尝试使用光学字符识别 (OCR) 从图像中提取文本,但该技术尚未广泛使用。
此外,传统的SEO概念一直是搜索引擎无法读取Flash文件,但这有点夸张。多年来,搜索引擎已经能够从 Flash 中提取一些信息,这在 Google 2008 年的公告中已经指出()。但是,搜索引擎要确定 Flash 中的确切内容并不容易。最大的问题之一是,即使搜索引擎探索了 Flash 的内部结构,它们仍然在寻找文本内容,而 Flash 是一种图形媒体,没有任何东西可以驱动设计人员在 Flash 中使用文本(搜索引擎除外)。除了福利)。即使 HTML 与 Flash 一起使用,HTML 文本中存在的所有语义线索(例如,标题标签、粗体文本等)都消失了。
此外,搜索引擎看不到Flash中收录的任何图像内容,这意味着当Flash中的文本转换为矢量轮廓时,搜索引擎可以读取的文本信息丢失了。第 6 章讨论了优化 Flash 的方法。
搜索引擎也不容易读取音频和视频文件。像图片一样,这些数据很难解析。除了少数例外,搜索引擎能够提取有限数量的数据,例如 MP3 文件中的 ID3 标签,或者嵌入“注释”、图片和章节标签的 AAC 格式改进的播客。尽管如此,搜索引擎仍无法区分足球比赛和森林火灾视频。
搜索引擎也无法读取程序中收录的内容。如前所述,搜索引擎实际上是在网页的源代码中寻找人类可读的文本。浏览器加载页面后所看到的并没有帮助,只有页面源代码中可以看到和读取的信息对搜索引擎有意义。
AJAX 技术就是这样一个例子,人们可以看到它显示的内容,但搜索引擎却不能。AJAX 是一种基于 JavaScript 的技术,用于从数据库中获取数据,然后在不刷新整个页面的情况下动态显示网页内容。这种技术通常用于网络上的一些工具中,当用户访问一个网址并提供一些输入时,AJAX 工具会获取并显示正确的内容。
用户输入信息后,客户端计算机(用户的计算机)上运行的脚本负责获取内容,这成为问题的根源。这种方法可以产生许多不同的输出。此外,在收到输入之前,内容不会出现在页面的 HTML 中,因此搜索引擎无法看到它。Google 提供了有关构建可抓取 AJAX 应用程序的具体提示,您可以在此处阅读。
一些其他形式的 JavaScript 会在用户采取行动之前不显示 HTML 内容,从而导致类似的问题。
在 HTML 5 中,创建了一个 embed tag() 结构,允许将插件收录在 HTML 页面中。插件是用户计算机上的程序,而不是 网站Web 服务器。此标签通常用于将视频或音频文件插入网页。标志告诉插件在哪里寻找数据文件。通过插件收录的内容对搜索引擎完全不可见。
框架和 iframe 是将来自其他网页的内容添加到网页的方法。iframe 比框架更常用来插入来自另一个 网站 的内容。您可以使用如下代码执行 iframe:
框架一般用于拆分发布者网站的内容,但也可以用于加载来自其他网站的内容,图2-21中的芝加哥论坛报网站@的一个例子>()。
图 2-21 是从其他 网站 中获取内容(假设您已获得授权)并将其与您自己的内容相结合的一个很好的示例。但是,搜索引擎能够识别 iframe 或从其他 网站 中提取内容的框架,从而忽略 iframe 或属于其他发布者的框架中的内容。换句话说,它们不会从其他 网站 中提取内容作为独特内容的一部分。