搜索引擎优化原理(5.正向索引6.倒排索引7.链接关系计算特殊文件处理)
优采云 发布时间: 2021-09-27 07:05搜索引擎优化原理(5.正向索引6.倒排索引7.链接关系计算特殊文件处理)
搜索引擎由四部分组成:搜索器、索引器、搜索器和用户界面。搜索者的功能是在互联网上漫游、查找和采集信息。索引器的作用是理解搜索器搜索到的信息,从中提取索引项,并用它来表示文档并生成文档库的索引表。检索器的作用是根据用户的查询快速查询索引数据库中的文档,评估文档与查询的相关性,对输出结果进行排序,并实现一定的用户相关性反馈机制。用户界面的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。
原则:
第一步:爬行,搜索引擎通过某种正规的软件跟踪网页的链接,从一个链接爬到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”或“蜘蛛机器人”。搜索引擎蜘蛛的爬行是有一定的规则进入的,需要遵循一些命令或者文件的内容。
第 2 步:抓取和存储。搜索引擎通过蜘蛛跟踪链接抓取网页,并将抓取到的数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。搜索引擎蜘蛛在抓取页面时也会做一定量的重复内容检测。一旦他们遇到大量抄袭、采集或网站上权重极低的复制内容,他们很可能会停止爬行。
第三步:预处理,搜索引擎将被蜘蛛抓取回来的页面,进行各个步骤的预处理。
⒈提取文字⒉中文分词⒊止词⒋去除噪音(搜索引擎需要识别并去除这些噪音,如版权通知文字、导航栏、广告等)5.正向索引6.倒行索引< @7. 链接关系计算 8. 特殊文件处理 除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,如 PDF、Word、WPS、XLS、PPT、TXT文件等。我们经常在搜索结果中看到这些文件类型。但是,搜索引擎无法处理图像、视频和 Flash 等非文本内容,也无法执行脚本和程序。
第四步:排名,用户在搜索框中输入关键词后,排名程序调用索引库数据,计算排名并展示给用户,排名过程直接与用户交互。但是由于搜索引擎的数据量巨大,虽然可以做到每天小幅更新,但一般来说,搜索引擎的排名规则是按照每天、每周、每月不同级别的更新。
选择与网站相关的内容,搜索次数,较少竞争,主要关键词,不太宽泛,不太特殊,商业价值,文本提取,中文分词,停用词,前向索引,后向行索引,链接关系计算,特殊文件处理
搜索引擎是网站建设过程中“方便用户使用网站”的必备功能,也是“研究网站用户行为的有效工具”。高效的网站搜索让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,并通过深入分析网站访问者的搜索行为,有助于进一步发展更多有效的在线营销策略具有重要价值。
⒈从网络营销环境来看,搜索引擎营销环境的发展对网络营销的推广起着举足轻重的作用;
⒉从效果营销的角度来看,很多企业之所以能够应用网络营销,是因为使用了搜索引擎营销;
⒊从电子商务概念的组成部分来看,网络营销是最重要的环节,也是向终端客户传递信息的重要环节。
上一节: [5.6 ]为什么要设置robots.txt文件?
下一节:[5.8]如何识别搜索引擎机器人的身份