百度搜索引擎优化原理(Web百科的解释和区分和自动的方式分析网页)

优采云发布时间: 2022-03-26 20:21

　　2021-09-211、基本概念

　　来自中文维基百科的解释：（网络）搜索引擎是指自动从互联网上采集信息，并经过一定的排序后提供给用户查询的系统。

　　来自英文维基百科的解释：网络搜索引擎提供了一个界面来搜索万维网上的信息。信息可能包括网页、图像和其他类型的文件。（网络搜索引擎为用户提供了一个界面，用于搜索互联网信息内容的信息，包括网页、图像和其他类型的文档）

　　2、类别

　　根据工作原理的不同，它们可以分为两大类：全文搜索引擎（FullText Search Engine）和目录（Directory）。

　　分类目录采用人工方式采集整理，形成雅虎中国及国内搜狐、新浪、网易目录等数据库。此外，互联网上的一些导航网站也可以归为原创类，如“网站首页”()。

　　全文搜索引擎自动分析网页的超链接，通过分析超链接和HTML代码获取网页的信息内容，并按照预先设计好的规则进行分析和组织，形成索引供用户查询。

　　两者的区别可以用一句话概括：分类目录是手动创建的网站索引，而全文搜索是网页的自动索引。（有些人经常将搜索引擎比作数据库检索，这是错误的）。

　　3、全文搜索的工作原理

　　全文搜索引擎由三部分组成：一般信息采集、索引和搜索。详细信息可以由五个部分组成：搜索器、分析器、索引器、爬虫和用户界面。

　　（1）Information采集（网络爬虫）：信息采集的工作是由搜索者和分析者完成的，搜索引擎使用所谓的网络爬虫（crawlers），网络蜘蛛 (spider) 或者，称为网络机器人 (robots) 的自动搜索机器人在网页上寻找超链接。

　　进一步解释：“机器人”实际上是一些基于 Web 的程序，它通过向网站上的 HTML 页面请求采集 HTML 页面，在指定范围内遍历整个 Web 空间，不断地从一个页面转到另一个页面。到另一个网页，从一个站点移动到另一个站点，将网页采集添加到网页数据库。每次“机器人”遇到一个新的网页，都会搜索里面的所有链接，所以理论上，如果为“机器人”建立了一个合适的初始网页集，从这个初始网页集开始，遍历所有链接，“机器人”将能够采集到整个网络空间的网页。

　　互联网上的很多开源爬虫程序都可以在一些开源社区中找到。

　　关键点1：核心在于html分析，所以严谨、结构化、可读性强、无错误的html代码更容易被采集机器人和采集分析。比如一个页面有这样的结尾，在网页上显示是没有问题的，但是很可能会被采集收录拒绝，比如../。 ./***.htm 这样的超链接也可能导致蜘蛛无法识别它们。这也是需要推广网络标准的原因之一。根据网络标准制作的网页更容易被搜索引擎检索和收录。

　　关键点2：搜索机器人有专门的搜索链接库。当搜索相同的超链接时，它会自动比较新旧网页的内容和大小。如果它们相同，则它们不会是采集。因此，存在修改页面能否为收录的顾虑，这是多余的。

　　(2）索引：搜索引擎对信息进行排列的过程称为“索引”。搜索引擎不仅需要保存采集到的信息，还需要按照一定的规则进行排列。索引可以使用一般的大数据库，如ORACLE、Sybase等，也可以以自己定义的文件格式存储。索引是搜索中比较复杂的部分，涉及到网页结构分析、分词、排序等技术。一个好的索引可以大大提高提高检索速度。

　　关键点1：虽然现在的搜索引擎都支持增量索引，但是创建索引还是需要很长的时间，而且搜索引擎会定期更新索引，所以即使爬虫来了，当我们可以在页面上搜索时，也会有一定的时间间隔.

　　关键点2：索引是搜索好坏的重要指标。

　　(3）Searching)：用户向搜索引擎发送查询，搜索引擎接受查询并将数据返回给用户。有的系统在返回结果前会计算和评估网页的相关性，并根据相关性排序，把最相关的放在最前面，把相关性较低的放在后面；有的系统在用户查询之前已经计算了每个网页的网页排名（Page Rank后面会介绍），并将查询结果返回给网页。较大的页面放在前面，较小的页面放在后面。

　　关键点1：不同的搜索引擎有不同的排序规则，所以如果你在不同的搜索引擎中搜索相同的关键词，排序是不同的。

　　第二节百度搜索引擎的工作原理

　　我对百度搜索的了解：由于工作的原因，小生有幸使用了百度的Know-how企业搜索引擎（这个部门现在已经下岗了，主要是因为百度的战略已经开始向谷歌靠拢，不再卖搜索引擎分开，并转向搜索引擎）服务），据百度销售人员介绍，Bestone的搜索核心与Big Search相同，只是版本可能略低，所以我有理由相信搜索有效以同样的方式。以下是一些简要介绍和注意事项：

　　1、网站搜索的更新频率

　　百度搜索可以设置网站的更新频率和时间。一般大网站的更新频率很快，会设置独立的爬虫进行跟踪，但是百度比较勤快，中小网站一般每天都会更新. 所以，如果你想让你的网站更新得更快，最好把你的链接放在一个大分类里（比如雅虎新浪网易），或者在百度自己的相关网站里，有超链接您的网站，或者您的网站位于某个大型网站中，例如大型网站博客。

　　2、关于采集的深度

　　百度搜索可以定义采集的深度，也就是说百度不一定会搜索到你的网站的所有内容，可能只会索引你的网站首页的内容，尤其是以小网站为例。

　　3、关于经常无法到达的采集网站

　　百度对网站的开关有特殊判断。如果发现某个网站不起作用，尤其是一些中小网站，百度会自动停止向这些网站发送爬虫，选择一个很重要良好的服务器并保持网站一天 24 小时畅通无阻。

　　4、关于更换IP网站

　　百度搜索可以基于域名或IP地址。如果是域名，会自动解析到对应的IP地址，所以会出现两个问题。首先是如果你的网站和别人使用了同一个IP地址，如果别人的网站被百度处罚，你的网站就会受到牵连。二是如果你更改了IP地址，百度会发现你的域名与之前的IP地址不对应，也会拒绝。将爬虫发送到您的网站。因此，建议不要随意更改IP地址。如果可能，请尝试单独使用 IP。保持网站的稳定性非常重要。

　　5、采集关于静态和动态网站

　　很多人担心asp?id=之类的页面很难采集，html之类的页面很容易采集。事实上，情况并没有他们想象的那么糟糕。目前大部分搜索引擎都支持动态网站采集检索，包括需要登录的网站都可以检索，所以不用担心自己的动态网站搜索引擎无法识别它。百度搜索支持动态支持。定制。但是，如果可能，请尝试生成静态页面。同时，对于大多数搜索引擎来说，脚本跳转（JS）、框架（frame）、

　　Flash超链接、收录非法字符的动态页面都束手无策。

　　6、关于索引消失

　　如前所述，需要创建搜索索引。通常，为了进行良好的搜索，索引是文本文件，而不是数据库。因此，删除索引中的记录并不是一件方便的事情。例如，百度需要使用特殊工具手动删除一条索引记录。据百度员工介绍，百度有专门的专人负责这件事情——接投诉、删除记录、手工工作。当然，可以直接删除某个规则下的所有索引，即可以删除某个网站下的所有索引。还有一种机制（未验证），过期页面和作弊页面（主要是页面标题、关键词和内容不匹配）也会在重新索引过程中被删除。

　　7、关于去重

　　百度搜索的去重不如谷歌的理想。主要是识别文章的标题和源地址。只要不一样，就不会自动去重，所以不用担心采集的内容相似而被快速删除。搜索处罚，google的不同，同名的同时收录不多。

　　另外，不要以为搜索引擎那么聪明，基本遵循一定的规则和公式。如果你想避免被搜索引擎惩罚，你可以避开这些规则。

　　第三节谷歌搜索排名技术

　　搜索方面，谷歌比百度强，主要是谷歌比较公平，而百度人为因素很多（这也符合我国国情），谷歌公平的原因在于它的排名技术，Page秩。

　　很多人都知道Page Rank是网站的质量等级，网站越小越好。事实上，Page Rank 是通过一个特殊的公式计算出来的。当我们在 google 上搜索关键词时，页面排名较小的页面的排名会更高。这个公式不需要人工干预，所以是公平的。

　　Page Rank的最初想法来自于纸质档案的管理。我们知道每篇论文的末尾都有参考资料。如果某个文章被不同论文多次引用，则可以认为这篇文章是一篇优秀的文章文章。

　　同理，简单来说，PageRank可以客观地评价网页的重要性。PageRank 不计算直接链接的数量，而是将一个从页面 A 到页面 B 的链接解释为页面 A 对页面 B 的投票。这样，PageRank 根据其获得的投票数来评估页面 B 的重要性。此外，PageRank 还会评估每个投票页面的重要性，因为某些页面的投票被认为具有很高的价值，因此它链接的页面可以获得很高的价值。

　　Page Rank 的公式在此省略，主要讨论影响 Page Rank 的因素。

　　1、你的网站的超链接数（你的网站被别人引用了），数字越大，你的网站越重要。通俗的讲，是其他网站友情链接，还是你的网站推荐链接；

　　2、超链接你的网站的重要性，也就是说一个质量好的网站有一个超链接到你的网站，说明你的网站也很优秀。

　　3、网页特定因素：包括网页的内容、标题和URL，即网页的关键词和位置。

　　第四节新增网站如何处理搜索

　　以下是对上述分析的总结：

　　1、为什么不搜索引擎收录你的网站，有以下几种可能（不是绝对的，根据每个情况而定）

　　（1）孤岛网页没有任何链接，也没有收录的网站指向你的超链接，搜索引擎将找不到你；

　　（2）网站网页和文件类型（如flash、JS跳转、一些动态网页、框架等）不被搜索引擎识别；

　　（3）你的网站服务器被搜索引擎惩罚过，不是收录同一个IP的内容；

　　(4）服务器IP地址最近发生变化，搜索引擎需要一定时间重启采集;

　　(5）服务器不稳定，经常崩溃，或者无法承受爬虫的压力采集;

　　(6）网页代码质量不好，搜索无法正确分析页面内容。请至少学习HTML的基本语法，推荐使用XHTML；

　　(7）网站使用robots(robots.txt)协议拒绝搜索引擎抓取的网页；

　　（8）使用关键词作弊网页，网页的关键词与内容严重不匹配，或者有些关键词过于密集；

　　(9）含有非法内容的网页；

　　(10）Same网站有大量同名的网页，或者网页的标题没有实际意义；

　　2、如何正确做新站（仅供参考）

　　(1）与优秀的网站交换链接；

　　（2）广泛登录各个主要网站的网站目录列表；

　　（3）在优质论坛多发言，发言一定要质量好，最好不要回复，并在发言中留下你的网站地址；

　　（4）申请大网站博客（新浪、网易、CSDN），在博客中推广自己的网站；

　　（5）使用好的建站程序，最好能生成静态页面并自动生成关键词；

<p>(6）注意每个网页的标题和面积，尽量把对应的关键词放在这些容易被搜索和索引的位置，注意

0

2022-03-26

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化原理(Web百科的解释和区分和自动的方式分析网页)

0 个评论

发起人