网页flash抓取视频(搜索引擎的工作过程可以分成三个阶段：（一）)

优采云发布时间: 2022-02-07 04:17

　　搜索引擎的工作过程大致可以分为三个阶段：

　　(1）爬取和爬取：搜索引擎蜘蛛通过以下链接访问网页，活动页面的 HTML 代码存储在数据库中。

　　(2）预处理：索引程序对爬取的页面数据进行文章提取、中文分词、索引等，供排名程序调用。

　　(3）排名：用户进入关键词后，排名程序调用索引数据库，计算相关度，然后生成一定格式的搜索结果页面。

　　一.爬取和抓取

　　1、蜘蛛

　　搜索引擎用来抓取和访问页面的程序称为“蜘蛛”，也称为机器人。

　　当搜索引擎蜘蛛访问一个网站页面时，它类似于普通用户使用的浏览器。蜘蛛程序发送页面访问请求后，服务器返回HTML代码，蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高爬取和爬取速度，搜索引擎使用多个爬虫，分布式爬取。

　　当蜘蛛访问任何网站时，它会首先访问网站根目录下的robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录，搜索引擎将不会抓取，直接抓取这些文件。

　　２、以下链接

　　为了在互联网上爬取尽可能多的页面，搜索引擎蜘蛛会跟踪页面的链接，从一个页面爬到另一个页面，逐层爬取，直到没有进一步的链接。

　　搜索引擎爬取有两个原则：一是深度优化，二是广度优先。

　　所谓深度优先，就是蜘蛛沿着找到的链接向前爬行，直到前面没有其他链接，然后返回第一页继续爬行。

　　广度优先意味着蜘蛛在一个页面上找到多个链接地址。它不是跟随一个链接，而是爬取页面上的所有一级链接，然后从二级页面爬到最后。. 理论上，无论是深度优先还是广度优先，只要有足够的时间，蜘蛛都可以爬取整个互联网。在实际工作中，蜘蛛的带宽资源和时间都是有限的，不可能爬取所有页面。因此，深度优先和广度优先通常混合使用，这样可以照顾到尽可能多的页面，也可以照顾一些内页。

　　３、吸引蜘蛛

　　如何吸引蜘蛛爬取爬取更多的页面，我认为应该考虑以下几个方面：

　　(1) 网站和页面的权重：高质量，高级网站被认为具有更高的权重，这个网站的页面会被抓取到depth 越高，收录的页数也会增加。

　　(2) 页面更新度：每次爬取蜘蛛都会存储页面数据。如果第二次爬取发现页面和第一次收录一模一样，说明这个网站页面还没有更新，下次蜘蛛继续爬的概率不会很高。

　　（3)导入链接：导入链接就是我们常说的外链和内链。顾名思义，外链是从外部网站导入的，大部分是友情链接。内链主要是对于网站内部，是指从网站的一个页面指向另一个页面，优质的外链可以增加网站的权重，也可以增加搜索引擎的抓取网站@ > 深度。

　　(4)到首页的点击距离：一般来说，网站上权重最高的页面就是首页，大部分外链也指向首页，首页是也是蜘蛛访问频率最高的，所以离首页比较远，距离越近，页面的权重越高，被蜘蛛爬取的几率就越大。

　　4、地址库

　　为了避免重复爬取和爬取网址，搜索引擎会在内部建立一个地址库来记录已找到但未爬取的页面，以及已爬取的页面。地址库中的 URL 来自多个来源：

　　(1)手动输入*敏*感*词*网站

　　(2)蜘蛛爬取爬取页面后，从HTML中解析出新的URL，并与地址库中的数据库进行比较。如果是不在地址库中的URL，则存储在要访问的地址库中。

　　(3)站长通过搜索引擎提交的URL网站页面表单。

　　5、文件存储

　　搜索引擎蜘蛛抓取到的数据存储在原创页面数据库中，其中的页面数据与用户浏览器获取的 HTML 完全相同，每个 URL 都有对应的文件编号。

　　6、抓取时重复内容检测

　　百度会定期检查重复收录的页面，一般每个月都会有一次大更新，目的是尽可能的删除那些重复收录的页面，为用户提供更准确的信息，满足用户的搜索目的。

　　二、预处理

　　“预处理”也简称为“索引”，因为索引是预处理中最重要的步骤。

　　（１）目前的搜索引擎提取文本仍然是基于文本内容。蜘蛛抓取到的页面中的HTML标签、JavaScript程序等内容不能用于排名。搜索引擎预处理首先要做的是从HTML文件中去除标签和程序，提取可用于排名处理的网页文本内容。

　　除了可见的文本，搜索引擎还会提取一些收录文本信息的特殊代码，例如 Meta 标签中的文本、图片替代文本、Flash 文件替代文本、链接锚文本等。

　　(２）中文分词

　　分词是中文搜索引擎特有的一个步骤。搜索引擎基于分词存储和处理页面和用户搜索。

　　中文分词基本上有两种方法，一种是基于字典匹配的，一种是基于统计的。

　　基于字典匹配的方法是指将一段待分析的汉字与预先制作的字典中的词条进行匹配，从待分析的字符串中扫描字典中已有的词条。分离出一个词。

　　基于统计的分词方法是指分析大量文本样本，计算相邻词的统计概率。出现的相邻单词越多，形成单词的可能性就越大。

　　以上两种方法各有优缺点。实际使用中的分词系统混合使用了两种方法，快速高效，可以识别新词和新词。

　　(３）去除停用词不管是英文还是中文，都会有一些在页面内容中出现频率很高但对内容没有影响的词，比如“的”、“地”等辅助词， “de”、“ah”、“ha”、“ya”像感叹词，“therefore”、“to”、“but”像介词。这些词被称为停用词，因为它们对页面的主要含义几乎没有影响。英语中常见的停用词，如 the、a、an、to、of 等。

　　搜索引擎会在对页面进行索引之前去除这些停用词，使索引数据的主题更加突出，减少不必要的计算量。

　　(４）去噪

　　用户搜索“类别”“历史”并返回博客文章只是因为这些词出现在页面上是没有意义的，完全无关紧要的。因此，这些块都是噪音，只能对页面的主题起到分散作用。

　　搜索引擎需要在不使用嘈杂内容的情况下识别和消除这种噪音并进行排名。去噪的基本方法是根据HTML标签将页面分成块，区分页眉、导航、文本、页脚、广告等区域。网站上重复出现的块通常是噪音。页面去噪后，剩下的就是页面的主要内容。

　　(５）删除

　　同一个文章经常在不同的网站和同一个网站的不同URL上重复出现，搜索引擎不喜欢这样重复的内容。用户搜索时，如果在前两页看到来自不同网站的同一篇文章文章，用户体验太差了，尽管都是内容相关的。搜索引擎希望只返回一个相同的文章，所以在索引之前需要识别并删除重复的内容。此过程称为重复数据删除。

　　去重的基本方法是计算页面特征的指纹关键词，也就是从页面的主要内容中选择最有代表性的部分关键词（往往是出现频率最高的关键词) ，然后计算这些关键词的数字指纹。这里的关键词的选择是在分词、去停用词、降噪之后。实验表明，通常选择10个特征关键词可以达到比较高的计算精度，选择更多的词对去重精度的提升贡献不大。

　　了解了搜索引擎的去重算法，SEO人员应该知道，简单的加“de、地、得”，改变段落的顺序，所谓伪原创，是逃不过搜索引擎去重算法的，因为这样的操作不能改变文章关键词的特征。此外，搜索引擎的重复数据删除算法可能不仅在页面级别，而且在段落级别。混用不同的文章，互换段落的顺序，不能让转载、抄袭变成原创。

　　(６）前向索引，简称索引。

　　前五步之后，搜索引擎会提取文本关键词，按照分词程序划分词，记录每个词出现的频率、次数、格式（如粗体、斜体）在页面中。、粗体、H标签、加色、锚文本等）、位置（如页面第一段或最后一段等）。然后将这些单词记录为一组字符串关键词，那么这些单词的相关信息，例如格式、权重等也会被记录下来。

　　其实搜索引擎中的每一个关键词也是转换成ID形式的记录，然后每个文件ID对应一串关键词ID。这种每个文件ID对应一个字符串关键词ID的数据结构称为前向索引。

　　(７）倒排索引

　　前向索引不能直接应用于关键词的排名。假设用户搜索关键词2，那么搜索引擎扫描索引库中的所有文件，耗时太长，无法满足用户返回结果的速度，所以这里使用倒排索引来映射关键词ID转文章ID，例如关键词2对应文章A，文章B，大大缩短了搜索引擎扫描索引中的文件库，缩短扫描时间。

　　(８）关联计算

　　至此，基本上就是在计算链接了。页面上的传入链接是什么，这些链接指向哪里，哪些链接指向这个页面，链接是使用URL还是锚文本，这些复杂的链接关系构成了页面的链接。权重，此时将锚文本作为重要的排名依据，在计算关键词排名的步骤中会收录具有广泛等值的锚文本。

　　(９）特殊文件处理

　　除了 HTML 文件，搜索引擎通常可以抓取和索引多种基于文本的文件类型，例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们还经常在搜索结果中看到这些文件类型。但是，目前的搜索引擎无法处理图片、视频、Flash等非文本内容，也无法执行脚本和程序。

　　虽然搜索引擎在识别图片和从 Flash 中提取文本内容方面取得了一些进展，但距离通过读取图片、视频和 Flash 内容直接返回结果的目标还差得很远。图片和视频内容的排名往往基于与之相关的文字内容。

　　三、排名

　　搜索引擎蜘蛛爬取页面，索引程序计算倒排索引后，搜索引擎随时准备处理用户搜索。用户在搜索框中填写关键词后，排名程序调用索引数据库数据，计算排名并展示给用户。排名过程直接与用户交互。

　　(１）搜索词处理

　　搜索引擎接收到用户输入的搜索词后，需要对搜索词进行一些处理。搜索词处理包括以下几个方面：

　　１）中文分词。与页面索引一样，搜索词也必须用中文进行分词，这是一个基于单词的关键词组合。分词的原理与分页的原理相同。

　　２）去找停用词。与索引一样，搜索引擎也需要从搜索词中删除停用词，以最大限度地提高排名相关性和效率。

　　３）命令处理。查询词切分后，搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。

　　也就是说，当用户搜索“减肥方法”时，程序分为“减肥”和“方法”两个词。排序时，搜索引擎默认用户正在寻找的页面同时收录“减肥”和“方法”。仅收录“减肥”但不收录“如何”的页面，或仅收录“如何”但不收录“减肥”的页面被视为不符合搜索条件。当然，这是为了说明原理而极其简化的陈述，实际上我们仍然会看到仅收录关键词一部分的搜索结果。

　　此外，用户输入的查询词还可能收录一些高级搜索指令，如加号、减号等，搜索引擎需要进行识别和相应的处理。稍后将详细描述高级搜索命令。

　　４）拼写错误已更正。如果用户输入了明显错误的单词或英文单词拼写错误，搜索引擎会提示用户使用正确的单词或拼写。

　　５）集成搜索触发器。某些搜索词会触发综合搜索。比如名人名字经常会触发图片和视频内容，当下的热点话题很容易触发信息内容。哪些词触发哪些综合搜索也需要在搜索词处理阶段进行计算。

　　(２）文件匹配

　　搜索词处理完毕后，搜索引擎会根据该词得到一组关键词。文件匹配阶段是查找收录所有关键词的文件。索引部分中提到的倒排索引可以快速完成文件匹配。

　　(３）初始子集的选择

　　找到收录所有关键词的匹配文件后，无法进行相关性计算，因为找到的文件往往有几十万、几百万，甚至几千万。实时对这么多文件进行相关性计算需要很长时间。

　　事实上，用户不需要知道所有匹配的数十万或数百万个页面，大多数用户只会查看前两个页面，即前 20 个结果。搜索引擎不需要计算这么多页面的相关性，只需要计算页面中最重要的部分。使用很多搜索引擎的人都会注意到，搜索结果页通常最多显示100页。当用户点击搜索结果页底部的“下一步”链接时，最多只能看到第100页，或者1,000 个搜索结果。

　　所以搜索引擎只需要计算前1000条结果的相关性，就可以满足要求。但问题是，在没有计算相关性的情况下，搜索引擎如何知道哪一千个文档是相关的？因此，最终相关性计算的初始页面子集的选择必须依赖于相关性以外的其他特征，其中最重要的是页面权重。由于所有匹配的文档已经具有最基本的相关性（这些文档收录所有查询关键词），搜索引擎通常会选择不相关页面特征的初始子集。初始子集的数量是多少？多少？或许更多，外人不知道。但是可以肯定的是，当匹配的页面数量巨大时，搜索引擎不会计算出这么多的页面，

　　(４）相关计算

　　1）关键词频率

　　使用频率越高的词对搜索词的含义贡献越小，而使用频率越低的词对搜索词的含义贡献越大。例如，假设用户输入了搜索词“we Pluto”。“我们”这个词非常常用，出现在很多页面上，它对搜索词“我们冥王星”的识别和相关性贡献很小。查找收录“我们”这个词的页面对搜索排名相关性影响不大，收录“我们”这个词的页面太多。

　　虽然“冥王星”这个词不太常用，但它对搜索词“我们冥王星”的意义贡献更大。那些收录“冥王星”一词的页面将与搜索词“我们冥王星”更相关。

　　搜索引擎不会平等对待搜索词字符串中的关键词，而是根据常用程度对其进行加权。不常用词权重系数高，常用词权重系数低，排序算法更关注不常用词。

　　2）词频和密度。

　　一般认为，在没有关键词积累的情况下，搜索词在页面上出现的频率更高，密度越高，页面与搜索词的相关性越高。当然，这只是一般规律，实际情况可能并非如此，所以相关性计算中还有其他因素。频率和密度只是因素的一部分，它们越来越不重要。

　　3）关键词位置和格式。

　　如索引部分所述，页面关键词出现的格式和位置都记录在索引库中。关键词出现在比较重要的位置，例如标题标签、粗体、H1 等，表明页面与关键词的相关性更高。这部分是页面上的 SEO 地址。

　　4）关键词距离。

　　分段的关键词显示为完全匹配，表明它与搜索词最相关。例如，在搜索“减肥法”时，页面上连续完整出现的“减肥法”字样是最相关的。如果“减肥”和“方法”这两个词没有连续出现，它们看起来更接近，搜索引擎认为它们更相关。

　　5）链接分析和页面权限。

　　除了页面本身的因素*敏*感*词*的文字等。

　　(５）等级过滤和调整

　　在选择匹配文档的子集并计算相关性之后，确定总体排名。之后，搜索引擎可能会有一些过滤算法对排名进行微调，其中最重要的就是进行处罚。虽然有些涉嫌作弊的页面按照正常的权重和相关度计算排在最前面，但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位，谷歌的负6、负30、负950等炫。

　　(６）排名显示

　　确定所有排名后，排名程序调用原创页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面片段，而不是调用页面本身的描述标签。

　　(７）搜索缓存

　　用户的关键词搜索中有很大一部分是重复的。根据 2/8 规则，20% 的搜索词占总搜索量的 80%。根据长尾理论，最常见的搜索词占不到80%，但通常头部比较粗，少数搜索词占所有搜索的很大一部分。尤其是在热门新闻方面，每天可能有数百万人搜索完全相同的关键词。

　　重新处理每次搜索的排名将是一种巨大的浪费。搜索引擎会将最常用的搜索词存储在缓存中，用户在搜索时直接从缓存中调用，无需经过文件匹配和相关性计算，大大提高了排名效率，减少了搜索响应时间.

　　(８）查询并点击日志

　　搜索引擎记录了搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果的质量、调整搜索算法、预测搜索趋势具有重要意义。

0

2022-02-07

网页flash抓取视频

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页flash抓取视频(搜索引擎的工作过程可以分成三个阶段：（一）)

0 个评论

发起人