网页flash文本抓取器(Google向网站管理员及设计者提出了一些建议(图))
优采云 发布时间: 2022-03-21 04:09网页flash文本抓取器(Google向网站管理员及设计者提出了一些建议(图))
尽管谷歌的爬虫功能越来越强大,但直到现在,它还无法像人类一样识别视频或 Flash *敏*感*词*的内容。即使是 JS 代码,Googlebot 也只有基本的分析能力。用谷歌的话来形容,就是Googlebot没有眼睛,它暂时无法“看到”视觉媒体的内容。除了视频,Flash*敏*感*词*也是网站的常见内容之一。为了让网站能够更好地被Googlebot分析和抓取,Google今天向网站管理员和设计者提出了一些建议。
我们先来看看 Googlebot 是如何处理 Flash 的。Googlebot 可以读取 Flash 文件中的文本和链接,但它无法识别 Flash 的结构和元素关联。另外,由于有时某些文本内容会被做成图片作为 Flash 的一部分,而 Googlebot 目前还没有相关的算法来读取这些图片,因此文本内容(可能很重要关键词)会被 Googlebot 漏掉。也就是说,即使 Googlebot 已成功将您的 Flash 文件索引到搜索数据库中,由于上述原因,Google 也可能无法识别其中的文本、内容和链接。更糟糕的是,其他搜索引擎的爬虫在识别 Flash 方面甚至比 Googlebot 还要差。这说明当你把一些重要的内容制作成Flash*敏*感*词*时,
为了避免这种情况发生,Google 在使用 Flash 时提供了一些很好的提示网站,同时仍尽量减少其搜索引擎友好性的损失:
1.最重要的原则:始终将相同的内容返回给Googlebot和网站的读者,否则你的网站可能会被判定为作弊。
2.仅在必要时使用 Flash。只有Flash作为多媒体呈现方式,网站(页面)的主要内容和导航系统仍然是基于文本的。如果您不知道该怎么做,YouTube 就是一个很好的例子。这不仅使 网站 对 Googlebot 更加友好,而且您的 网站 内容也更容易被更广泛的受众访问,包括经常使用屏幕阅读器的视障人士。此外,一些网速较慢的读者或使用非标准浏览器的读者也可能能够阅读您的 网站 内容,因为他们可能会跳过 Flash 内容。
3.使用 sIFR 技术。这样,网站的主要内容和导航系统仍然是基于HTML的,不会浏览Flash的读者也可以阅读你的网站。
4.提供非 Flash 版本的 网站。例如,当您在网站首页中使用Flash*敏*感*词*作为欢迎页面时,请务必在Flash*敏*感*词*之外提供HTML链接,并指向非Flash版本的网站 ,让读者即使没有安装Flash插件也能轻松阅读您的网站内容。
当然,谷歌的错,严格地说,谷歌不能做同样的事情来抓取和分析文本,这并不是谷歌的错,因为这项技术还没有成熟。但目前的搜索技术也只能走到这一步,所以我们在设计或更新网站时只尽量采纳Google的建议,以利于网站的收录和排名。其实和图片的内容差不多。当我们在网页中插入图片或Flash*敏*感*词*时,应尽量将其主要内容用文字写出,这样即使Googlebot忽略了它们,它们仍能从你的文字描述中理解。大概的内容。