搜索引擎如何抓取网页(国外文章(谷歌翻译)对html标签的评分)
优采云 发布时间: 2021-09-13 08:16搜索引擎如何抓取网页(国外文章(谷歌翻译)对html标签的评分)
今天偶然看到的一篇外文文章(谷歌翻译)。挺有意思的,主要是对常见的html标签打分的形式。虽然有些描述略显过时,但大部分标签的分析还是很有相关性的。在这里做个记录,方便以后做wordpress主题的时候合理布局(x)个html标签。
先看搜索引擎对html标签的评分:
内部链接文本:10 分
标题:10分
域名:7分
H1、H2 字号标题:5 分
每段第一句:5分
路径或文件名:4分
相似度(关键词stacking):4 分
每句开头:1.5分
粗体或斜体:1分
文字使用(内容):1分
title属性:1分(注意不是title>,是title属性,比如a href=...title=”)
alt 标签:0.5 分
Meta description(描述属性):0.5分
Meta关键词(关键字属性):0.05分
标签是最常用的。以后选择模板的时候一定要注意优化网站。以下是具体的优化建议:
1、静态页面
更改信息页面和频道,网站首页为静态页面,这将有助于搜索引擎更快更好地收录。
关键词2、页面标题优化
必须列出信息标题、网站名称以及相关关键词。
3、 Meta tag优化(过去搜索引擎优化的重要方法已经不再是关键因素,但仍然不能忽视)
主要包括:Meta描述,Meta关键字将关键字密度设置为适中,通常为2%-8%,这意味着您的关键字必须在页面上出现多次,或者在搜索引擎允许的范围内,以避免填充关键字。
4、 为 Google 制作站点地图
Google 的站点地图是原创 robots.txt 的扩展。它采用XML格式记录整个网站信息并供谷歌阅读,让搜索引擎能够更快更全面的收录网站内容。
可以使用谷歌提供的Sitemap*敏*感*词*制作(需要技术人员制作):
技术人员也可以制作更全面的站点地图。
5、关键词图片优化
不要忽略图片的替换关键词。另一个功能是当图片无法显示时,可以给访问者一个替代的解释语句。
6、 避免表格嵌套
目前,此站点上的表格嵌套过多。搜索引擎通常只读取 3 个嵌套的 。如果嵌套太多,将无法检测到一些有用的信息。
7、 网站refactoring 使用网络标准
尽量使网站的代码符合W3C的HTML4.0或XHTML1.0规范。通过XML+CSS技术重构网站,减少无格式和冗余代码,提高网站页面的可扩展性和兼容性,让更多浏览器支持。
8、网站结构平面规划
目录和内容结构不应超过三层。如果超过三个级别,最好通过子域调整和简化结构级别的数量。另外,目录命名的标准做法是使用英文而不是拼音字母
9、 页面容量的合理化
合理的页面容量会提高网页的显示速度,增加搜索引擎蜘蛛的友好度。同时建议js脚本和css脚本尽量使用链接文件
10、外部文件策略
将javascript文件和css文件分别放在js和css外部文件中。这样做的好处是将重要的页面内容放在页面顶部,同时减少文件大小。有利于搜索引擎快速准确的抓取页面的重要内容。其他字体(FONT)和格式标签也尽量少用,推荐使用CSS定义。
11、external link
尽量让其他与你话题相关的网站链接到本站,并尽量链接到PR值更高的网站。如果网站提供与话题相关的导出链接,搜索引擎认为与该话题相关的内容丰富,也有利于排名,比如各种招商引资网站和投融资网站的概念。此外,无论质量如何,都应避免*敏*感*词*联网。对于搜索引擎,最好是不那么精确。
12、网站Map
网站自己的网站map是搜索引擎更全面索引收录你的网站的重要因素。建议制作基于文本的网站地图,其中收录网站的所有列和子列。 网站map 的三大要素:文本、链接、关键词,对搜索引擎抓取主页内容极其有帮助。特别是动态生成的目录网站尤其需要创建网站映射。
13、图像热点
除AltaVista和Google明确支持图片热链接外,其他引擎目前不支持。当“蜘蛛”程序遇到这种结构时,将无法区分它。所以尽量不要设置图片热点(Image Map)链接。
14、FLASH 应用
FLASH不收录文字信息,所以尽量用于功能展示和广告,网站栏目和页面少用。
15、JS 脚本
在不支持JS脚本的浏览器中,NOSCRIPT>标签会起到重要的提醒作用,对搜索引擎的蜘蛛搜索也有帮助。
16、帧帧
搜索将忽略 Frame 标记。尽量少用。如果必须使用它,则应正确使用 Noframe 标签。在 Noframe>/Noframe> 区域中,收录指向框架页面的链接或带有 关键词 的描述文本。同时关键词文字也出现在框外。
17、news 内部链接