搜索引擎优化ppt文档(《(37页珍藏版)》让数字营销连接商业梦想)
优采云 发布时间: 2022-03-26 16:16搜索引擎优化ppt文档(《(37页珍藏版)》让数字营销连接商业梦想)
《搜索引擎原理.ppt》由会员共享,可在线阅读。更多关于《搜索引擎原理.ppt(37页珍藏版)》的信息,请在线搜索一课的资料。
1、让数字营销连接商业梦想与搜索引擎三大要素讲师:steven2012-1-6让数字营销连接商业梦想让数字营销连接商业梦想与搜索引擎三大要素搜索引擎蜘蛛通过跟踪访问网页链接并获取页面 HTML 代码存储在数据库中。爬取爬取索引程序对爬取的页面数据进行文本提取、中文分词、索引等处理,为排名程序调用预处理做准备,用户输入关键词后,排名程序调用索引数据库数据计算相关性,然后按照一定的格式生成搜索结果页面。搜索引擎的工作过程大致可以分为三个阶段。让数字营销与商业梦想联系起来。爬取爬取是搜索引擎工作的第一步,数据采集的任务就完成了。. n 什么是蜘蛛?n 如何关注链接?n 什么样的页面可以吸引蜘蛛?n 爬取时复制内容
2、检查 n 什么是文件存储?让数字营销连接商业梦想 什么是蜘蛛 Spider1、 是一组运行在计算机上的程序,负责在搜索引擎中抓取新的、可公开访问的 WEB 页面、图片、文档和其他资源。爬取的过程就是下载一个网页,分析其中的链接,然后漫游到其他链接指向的网页,如此循环往复。2、蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高爬取和爬取的速度,搜索引擎使用多个蜘蛛并发分布爬取。3、当蜘蛛访问任何一个网站时,它会首先访问网站根目录下的robots.txt文件。如果机器人。txt 文件禁止搜索引擎抓取某些文件或目录,蜘蛛会遵守协议,不会抓取被禁止的 URL。让数字营销连接商业梦想 主流蜘蛛榜n百度sp
3、ider+(+ Spider n Mozilla/5.0(兼容;Yahoo! Slurp China;!China Spider n Mozilla/5.0(兼容;Yahoo ! Slurp/3.0; http:/ 英文 Yahoo Spider n Mozilla/5.0 (兼容; Googlebot/2.1; +http:/ Google Spider n msnbot/1.@ > 1(+http:/微软必应蜘蛛n搜狗+web+robot+(+http:/搜狗蜘蛛nSosospider+(+http:/搜搜蜘蛛连接数字营销与商业梦想蜘蛛
4、-Google 管理工具让数字营销连接商业梦想跟踪链接 n 为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛 就像在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来。n 整个 Internet 由链接的 网站 和页面组成。理论上,蜘蛛可以从任何页面开始并跟随链接爬到互联网上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采取一定的爬取策略来遍历互联网上的所有页面。让数字营销连接商业梦想爬行策略最简单的爬行遍历策略分为两种:
5、,A3,A4,到达A4页面后,没有其他链接可以跟随,则返回A页面,跟随页面上的另一个链接,爬到B1,B2,B3,B4。在深度优先策略中,蜘蛛爬行直到它不能再向前移动,然后才返回爬行另一条线。n 深度优先策略,如封建皇位继承。不能深入的时候才考虑其他分支的策略。深度优先策略深度优先策略让数字营销与商业梦想图相连接:广度优先策略n 如上图所示,蜘蛛沿着链接从A页面爬到A1、B1、C1页面。直到A页面上的所有链接都爬完,然后从A1页面上找到下一层链接,爬到A2、A3页面,A4.n广度优先策略,类似顺序规则。
6、广泛的资源和时间不是无限的,不可能爬取所有页面。事实上,最大的搜索引擎抓取和收录只是互联网的一小部分。深度优先和广度优先通常混合使用,这样可以照顾到尽可能多的网站(广度优先),以及一些网站内页(深度-第一的)。爬行策略让数字营销连接商业梦想以吸引蜘蛛。网站 素质高、资历高的被认为权重较高。网站 和页面权重 如果蜘蛛在第二次爬取时发现页面和第一次完全一样 收录 说明页面没有更新,蜘蛛不需要经常爬。蜘蛛要抓取的页面更新,必须有传入链接才能进入页面,否则蜘蛛根本没有机会知道页面的存在。一般来说,首页在网站上的权重最高。离首页越近的点击距离,页面权重越高,被蜘蛛爬取的机会就越大。
7、点击到首页的距离 n 哪些页面被认为更重要?有几个因素:哪些页面被认为是重要的?有几个促成因素:让数字营销连接商业梦想在爬行时重复内容检测 n Spiders 在爬行和爬行文件时执行某种程度的重复内容检测。当你在网站上遇到大量转载或抄袭、权重极低的内容时,很可能会停止爬取。n 这就是为什么一些网站管理员在日志文件中发现蜘蛛,但页面从未真正被 收录 访问过。让数字营销连接商业梦想文件存储搜索引擎蜘蛛存储爬入原创页面数据库的数据。页面数据与用户浏览器获取的 HTML 完全相同。每个 URL 都有一个唯一的文件编号。让数字营销与商业梦想预处理分析系统对接一、提取文本一、提取文本1.@>搜索引擎预处理首先要做的事情
8、是去除HTML文件中的标签和程序,提取网页中可用于排名处理的文本内容。2. 除了可见文字,搜索引擎还会提取一些收录文字信息的特殊代码,如Meta标签中的文字、图片替代文字、Flash文件替代文字、链接锚文字等。让数字营销连接商业梦想特殊文件处理 除了 HTML 文件之外,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们还经常在搜索结果中看到这些文件类型。但是,目前的搜索引擎无法处理图片、视频、Flash等非文本内容,也无法执行脚本和程序。
9、返回图像、视频和 Flash 内容结果的目标还很遥远。图片和视频内容的排名往往基于与之相关的文字内容。中文分词基本上有两种方法,一种是基于字典匹配的,一种是基于统计的。基于字典匹配的方法是指将一段待分析的汉字与预先制作的字典中的词条进行匹配,从待分析的字符串中扫描字典中已有的词条。分离出一个词。基于统计的分词方法是指分析大量文本样本,计算相邻词的统计概率。出现的相邻单词越多,形成单词的可能性就越大。基于统计的方法的优点是对新出现的词更敏感,也有利于消歧。基于字典匹配和统计的分词方法各有优缺点,实际使用中的分词系统参差不齐。
10、使用了两种方法,快速高效,可以识别生词,生词,消除歧义。让数字营销连接商业梦想中文分词“2011时尚女装搭配”将分为“2011”和“时尚”、“女装”和“搭配”四个字。搜索引擎优化分词允许数字营销将商业梦想与停止词联系起来。不管是英文还是中文,都会有一些在页面内容中出现频率很高,但对内容没有影响的词,比如“的”、“地”、“德”。类助词,感叹词如“ah”、“ha”、“ya”,介词如“therefore”、“to”、“but”。英语中常见的停用词,如“the”、“of”。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。让数字营销连接商业梦想消除噪音搜索引擎需要识别并消除噪音,在不使用嘈杂内容的情况下进行排名。降噪的基本方法是基于
11、HTML标签将页面分成块,区分页眉、导航、正文、页脚、广告等区域。网站 上重复出现的块往往是噪音,只有页面的主题是可以起到分散作用。页面去噪后,剩下的就是页面的主要内容。让数字营销连接商业梦想页面,重复相同的文章,经常在不同的网站和相同的网站的不同URL上重复,搜索引擎不喜欢这种重复。内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验太差了,尽管都是内容相关的。搜索引擎希望只返回一个相同的文章,因此需要在索引之前识别和删除重复的内容。此过程称为“重复数据删除”。让数字营销连接商业梦想 PageRank 计算 PR 是 PageRank 的首字母缩写。谷歌公关理论就是一切
12、最著名的基于链接的搜索引擎理论。PR用于表示页面重要性的概念。简单来说,反向链接多的页面是最重要的页面,所以PR值也更高。链接就像民主投票。页面A链接到页面B,表示页面A反对页面B。投票增加页面B的重要性。1、识别度更高的网页更重要,即网页反向链接越多越重要2、反向链接的源网页质量越高,这些优质网页的链接指向的网页就越多。重要3、链接少的网页更重要。比如AB,A输给了B,这就认可了B的实力。自然是赢的次数多的选手,与更高质量的对手一起获胜,并且输得更少,排名更高。让数字营销将商业梦想预处理的索引系统连接到转发索引,并将转发索引页面转换为由关键词组成的集合,同时记录页面上的每个关键词
1 3、的出现频率、出现次数、格式(如在title标签、粗体、H标签、锚文本等)、位置(如页面第一段等) . 这样,每一页就可以记录为一组关键词,其中还记录了每个关键词的词频、格式、位置等权重信息。将数字营销与商业梦想联系起来 倒排索引 前向索引不能直接用于排名。需要将关键词对应的文件的映射转换为关键词到倒排索引中文件的映射关键词为主键,每个关键词对应关键词 出现的一系列文件。这样,当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,并且可以立即找到所有收录这个关键词的文件。让数字营销连接商业梦想查询系统排名
14、文本分割,将查询字符串转换为基于单词的关键词组合。分词的原理与分页的原理相同。(2)去除停用词。和索引一样,搜索引擎也需要去除搜索词中的停用词,以最大化排名相关性和效率。(3)指令处理。如加号)、减号、等,搜索引擎需要对其进行相应的识别和处理(4)拼写纠错。让数字营销连接商业梦想文档匹配文档匹配倒排索引快速匹配文档假设用户搜索“关键词 2 < @关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”这两个词,它可以分别找到收录这两个词的词。所有页面。一个简单的计算找到同时收录“关键词2”和“关键词7”的所有页面:文件 1 和文件 6。让数字营销连接商业梦想相关性计算相关性计算相关性计算选择初始
在 15、 子集之后,计算子集中页面的 关键词 相关性。影响相关性的主要因素包括几个方面: 影响相关性的主要因素包括几个方面: n关键词 共同度 n 词频和密度 n关键词 位置和形式 n关键词 距离 n 链接分析和页面权重允许数字营销与商业梦想联系起来。相关度计算n关键词频度关键词越常用的词对搜索词的意义贡献越小,越不常用的词对意义的贡献越大。例如,假设用户输入了搜索词“we Pluto”。“我们”这个词非常常用,出现在很多页面上,但它对搜索词“we dki”的识别和相关性贡献甚微。那些收录单词“dki”的页面将与搜索词“we dki”更相关。让数字营销连接商业梦想相关性计算n词频和密度词频和密度通用识别
16、表示在没有关键词积累的情况下,搜索词在页面上出现的频率更高,密度也比较高,说明页面与搜索词的相关性更高。n关键词位置和表格关键词位置和表格如索引部分所述,页面关键词出现的表格和位置记录在索引库中。关键词 出现在比较重要的位置,例如标题标签、粗体、H1 等,表明页面与 关键词 的相关性更高。这部分是页面上的 SEO 地址。让数字营销连接商业梦想相关性计算n关键词距离关键词距离分段关键词完整匹配出现,指示最相关的搜索词。例如,当搜索“
17、链接分析和页面权重除了页面本身的因素*敏*感*词*的文字等。将数字营销连接到商业梦想排名过滤器并调整排名过滤器并调整计算的相关性后,总体排名已经确定. 之后,搜索引擎可能会有一些过滤算法对排名进行微调,其中最重要的就是进行处罚。虽然有些涉嫌作弊的页面按照正常的权重和相关性计算排在最前面,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位、谷歌的负6、负30、负950等算法。连接数字营销
18、联系商梦排名展示所有排名确定后,排名程序调用原页面的标题标签、描述标签、快照日期等数据在页面上展示。有时搜索引擎需要动态生成页面片段,而不是调用页面本身的描述标签。让数字营销连接商业梦想标题、描述字数限制百度标题显示不超过30个汉字,谷歌显示65个英文字符,中文32个字符。如果超过字数限制,则不会显示。使用省略号代替百度描述,最多显示77个汉字。Google 显示 165 个英文字符。如果超过字数限制,则不会显示。即“网页缓存”,每个未被禁止搜索的网页,都会自动在百度上生成一个临时缓存页面,称为“百度快照”。当您遇到临时 网站 服务器故障或网络传输拥塞时,您可以
19、用“快照”快速浏览页面的文字内容。百度快照只会暂时缓存网页的文字内容,所以那些图片、音乐等非文字信息仍会保存在原网页中。当原网页被修改、删除或屏蔽时,百度搜索引擎会根据技术安排自动修改、删除或屏蔽相应网页快照。让数字营销连接商业梦想搜索缓存重新处理每次搜索的排名可能是一种很大的浪费。搜索引擎会将最常用的搜索词存储在缓存中,用户在搜索时直接从缓存中调用,无需经过文件匹配和相关性计算,大大提高了排名效率,缩短搜索响应时间,并允许数字营销与商业梦想查询联系起来。并点击日志搜索用户的IP地址,搜索关键词,搜索时间,点击了哪些结果页面,搜索引擎记录并形成日志。这些日志文件中的数据对于搜索引擎判断搜索结果的质量、调整搜索算法、预测搜索趋势具有重要意义。37