搜索引擎如何抓取网页(国外文章(谷歌翻译)对html标签的评分)

优采云 发布时间: 2021-09-13 08:16

  搜索引擎如何抓取网页(国外文章(谷歌翻译)对html标签的评分)

  今天偶然看到的一篇外文文章(谷歌翻译)。挺有意思的,主要是对常见的html标签打分的形式。虽然有些描述略显过时,但大部分标签的分析还是很有相关性的。在这里做个记录,方便以后做wordpress主题的时候合理布局(x)个html标签。

  先看搜索引擎对html标签的评分:

  内部链接文本:10 分

  标题:10分

  域名:7分

  H1、H2 字号标题:5 分

  每段第一句:5分

  路径或文件名:4分

  相似度(关键词stacking):4 分

  每句开头:1.5分

  粗体或斜体:1分

  文字使用(内容):1分

  title属性:1分(注意不是title>,是title属性,比如a href=...title=”)

  alt 标签:0.5 分

  Meta description(描述属性):0.5分

  Meta关键词(关键字属性):0.05分

  标签是最常用的。以后选择模板的时候一定要注意优化网站。以下是具体的优化建议:

  1、静态页面

  更改信息页面和频道,网站首页为静态页面,这将有助于搜索引擎更快更好地收录。

  关键词2、页面标题优化

  必须列出信息标题、网站名称以及相关关键词。

  3、 Meta tag优化(过去搜索引擎优化的重要方法已经不再是关键因素,但仍然不能忽视)

  主要包括:Meta描述,Meta关键字将关键字密度设置为适中,通常为2%-8%,这意味着您的关键字必须在页面上出现多次,或者在搜索引擎允许的范围内,以避免填充关键字。

  4、 为 Google 制作站点地图

  Google 的站点地图是原创 robots.txt 的扩展。它采用XML格式记录整个网站信息并供谷歌阅读,让搜索引擎能够更快更全面的收录网站内容。

  可以使用谷歌提供的Sitemap*敏*感*词*制作(需要技术人员制作):

  技术人员也可以制作更全面的站点地图。

  5、关键词图片优化

  不要忽略图片的替换关键词。另一个功能是当图片无法显示时,可以给访问者一个替代的解释语句。

  6、 避免表格嵌套

  目前,此站点上的表格嵌套过多。搜索引擎通常只读取 3 个嵌套的 。如果嵌套太多,将无法检测到一些有用的信息。

  7、 网站refactoring 使用网络标准

  尽量使网站的代码符合W3C的HTML4.0或XHTML1.0规范。通过XML+CSS技术重构网站,减少无格式和冗余代码,提高网站页面的可扩展性和兼容性,让更多浏览器支持。

  8、网站结构平面规划

  目录和内容结构不应超过三层。如果超过三个级别,最好通过子域调整和简化结构级别的数量。另外,目录命名的标准做法是使用英文而不是拼音字母

  9、 页面容量的合理化

  合理的页面容量会提高网页的显示速度,增加搜索引擎蜘蛛的友好度。同时建议js脚本和css脚本尽量使用链接文件

  10、外部文件策略

  将javascript文件和css文件分别放在js和css外部文件中。这样做的好处是将重要的页面内容放在页面顶部,同时减少文件大小。有利于搜索引擎快速准确的抓取页面的重要内容。其他字体(FONT)和格式标签也尽量少用,推荐使用CSS定义。

  11、external link

  尽量让其他与你话题相关的网站链接到本站,并尽量链接到PR值更高的网站。如果网站提供与话题相关的导出链接,搜索引擎认为与该话题相关的内容丰富,也有利于排名,比如各种招商引资网站和投融资网站的概念。此外,无论质量如何,都应避免*敏*感*词*联网。对于搜索引擎,最好是不那么精确。

  12、网站Map

  网站自己的网站map是搜索引擎更全面索引收录你的网站的重要因素。建议制作基于文本的网站地图,其中收录网站的所有列和子列。 网站map 的三大要素:文本、链接、关键词,对搜索引擎抓取主页内容极其有帮助。特别是动态生成的目录网站尤其需要创建网站映射。

  13、图像热点

  除AltaVista和Google明确支持图片热链接外,其他引擎目前不支持。当“蜘蛛”程序遇到这种结构时,将无法区分它。所以尽量不要设置图片热点(Image Map)链接。

  14、FLASH 应用

  FLASH不收录文字信息,所以尽量用于功能展示和广告,网站栏目和页面少用。

  15、JS 脚本

  在不支持JS脚本的浏览器中,NOSCRIPT>标签会起到重要的提醒作用,对搜索引擎的蜘蛛搜索也有帮助。

  16、帧帧

  搜索将忽略 Frame 标记。尽量少用。如果必须使用它,则应正确使用 Noframe 标签。在 Noframe>/Noframe> 区域中,收录指向框架页面的链接或带有 关键词 的描述文本。同时关键词文字也出现在框外。

  17、news 内部链接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线