怎么优化搜索引擎(结合实际应用谈一谈如何优化搜索引擎排名?(一)的发展)
优采云 发布时间: 2022-01-21 21:14怎么优化搜索引擎(结合实际应用谈一谈如何优化搜索引擎排名?(一)的发展)
一、简介
由于最近一个网络搜索应用的发展,有必要对搜索引擎的排名算法有一定的了解和研究。因此,对常见的搜索引擎排名算法进行简要分析,并结合实际应用讨论如何优化搜索引擎排名。
二、搜索引擎开发1. 分类
最早的搜索引擎使用分类的方法,即人工对网页进行分类,整理出高质量的网站。被誉为第一代搜索引擎。
2. 文本搜索
随着网页数量的增加,人工分类方法不再有效,搜索引擎开始进入文本检索时代,通过计算用户查询关键词与web的相关度返回搜索结果页面内容,虽然不再受数量限制,但对于一些恶意重复关键词的网站来说,很难提升自己的搜索引擎排名。这是第二代搜索引擎。
3. 综合分析
文本检索时代之后,出现了一种新的排名形式,通过外部链接进行排名;在那个时候,外部链接代表了一种推荐的含义,通过每个网站的推荐链接数来判断一个网站的流行度和重要性。然后搜索引擎结合网页内容的重要性和相似性来提高用户搜索信息的质量。谷歌首先使用了这个模型,它的主要算法是PageRank算法。谷歌不仅第一次使用它,而且取得了巨大的成功。这一成果在当时引起了学术界和其他商业搜索引擎的高度关注。后来,基于这一成果,学术界提出了更多改进的链接分析算法。大多数主要搜索引擎都使用分析链接技术算法。
4. 行为分析
第四代搜索引擎形成了以用户为中心的模式。当用户进行查询时,同一个关键词背后可能有不同的需求。对于用户和果农来说,要求是完全不同的。即使是同一个用户搜索同一个关键词,也会因为不同的时间和场合需要搜索不同的内容。主流搜索引擎通过分析用户行为(如搜索历史)和权限范围内的用户行为(如地理位置、网络运营商分析等)对搜索结果进行重新排序,过滤掉用户需要的数据。
三、常用搜索引擎算法介绍1. PageRank算法
PageRank算法是由谷歌的两位创始人斯坦福大学*敏*感*词*拉里佩奇和谢尔盖布林发明的。在他们对网页排名问题的研究中,他们借鉴了学术界常用的判断学术论文重要性的方法,即看论文。引文。认为网页的重要性也可以按照这种方法来评价。于是就诞生了PageRank的核心思想:
PageRank算法的优点是对互联网上的网页进行全局重要性排名,算法的计算过程可以离线完成,有利于快速响应用户请求。但它的缺点是与主题无关,不区分页面中的导航链接、广告链接和功能链接,容易高估广告页面;此外,PageRank 算法的另一个缺点是旧的页面排名会高于新的页面排名。页面高是因为一个新页面,即使是一个非常好的页面,不会有很多链接,除非他是一个站点的子站点。这就是为什么 PageRank 需要多种算法的组合。
2. HITS 算法
HITS是英文Hyperlink-Induced Topic Search的缩写,翻译为“Hyperlink-Induced Topic Search”。
根据HITS算法,用户输入关键词后,算法会为返回的匹配页面计算两个值,一个是Hub Scores,一个是Authority Scores。这两个价值观相互依存,相互影响。所谓pivot值是指页面上所有指向该页面的外链的权限值之和。权限值是指所有传入链接所在页面的pivot值之和。
上面的定义有点拗口。我们可以简单的说,HITS算法会提取出两个比较重要的页面,分别是pivot page和authoritative page。中心页面本身可能没有很多入站链接,但有很多指向权威页面的出站链接。权限页面本身可能没有很多外链,但是从中心页有很多外链。
典型的中心页面是 网站 目录,例如 Yahoo Directory、Open Directory 或 Hao123。这个优质的网站目录的作用是指向其他权限网站,所以称为枢纽。而权威页面有很多传入链接,其中收录来自中心页面的大量链接。权威页面通常是提供真正相关内容的页面。
HITS算法是针对特定查询词的,所以称为主题搜索。
HITS 算法的最大缺点是它是在查询阶段计算的,而不是在抓取或预处理阶段。所以HITS算法是以查询排序响应时间为代价的。正因为如此,原创的HITS算法在搜索引擎中并不常用。但是,HITS算法的思想很可能会融入到搜索引擎的索引阶段,即根据链接关系寻找具有关键性或权威性特征的页面。
3. 山顶算法
HillTop 是一项搜索引擎结果排名专利,2001 年由 Google 工程师 Bharat 申请专利。HillTop 算法的指导思想与 PageRank 一致,即搜索结果的排名权重由数量和数量决定。反向链接的质量。但是,HillTop 认为,仅从具有相同主题的相关文档中计算链接对搜索者来说更有价值,即与主题相关的页面之间的链接比不相关的链接对权重计算的贡献更大。在 1999-2000 年,当 Bharat 和其他 Google 开发人员开发算法时,他们将此类主题文档称为“专家”文档,并且只有从这些专家文档页面到目标文档的链接确定了“权威分数”的主要部分的链接页面。
Hilltop算法的流程:首先计算查询主题最相关的“专家”资源列表;其次在选定的“专家”集中识别相关链接,并按照它们来识别相关的网络对象;“专家”的数量和相关性。因此,着陆页的得分反映了最中立的专家对查询主题的集体意见。如果不存在这样的专家库,山顶将不会给出结果。
从 Hilltop 算法的流程可以看出,该算法主要包括两个方面:寻找专家和排名目标。通过预处理搜索引擎抓取的网页来查找专家页面。对于 关键词 查询,首先查找专家,并对返回的结果进行排序。
权威页面是查询主题的最佳专家指向的页面。专家也可能是更广泛领域或该主题其他领域的专家。专家页面上只有部分链接与该主题相关。因此,结合查询主题专家之间的相关外向链接,以找到与查询主题相关的页面高度认可的页面。
从最匹配的专家页面和相关的匹配信息中选择专家页面的超链接子集。尤其是选择那些与所有查询相关的链接。根据这些选定的链接,找到其目标的一个子集作为与查询主题最相关的网页。该目标子集收录由至少两个非相关专家页面链接的网页。目标集根据指向它们的专家的综合得分进行排序。
Hilltop 在应用中还有一些不足之处。专家页面的搜索和判定在算法中起着关键作用,专家页面的质量决定了算法的准确性;但是,专家页面的质量和公平性在一定程度上难以保证。*敏*感*词*忽略了大多数非专家页面的影响。在*敏*感*词*的原型系统中,专家页面仅占整个页面的1.79%,不能完全代表整个互联网。
当 Hiltop 算法无法得到足够多的专家页面子集(少于两个专家页面)时,返回空,即 Hiltop 适合细化查询排名,但无法覆盖。这意味着 Hilltop 可以结合某种页面排序算法来提高准确性,并不适合作为独立的页面排序算法。从 Hilltop 中基于查询主题的专家页面集合中选择与主题相关的子集也是在线运行的,这会像前面提到的 HITS 算法一样影响查询响应时间。随着专家页面集合的增长,算法的可扩展性会受到影响。
4. 直接命中算法
与前两种算法相比,Direct Hit 算法是一种注重信息质量和用户反馈的排序方法。它的基本思想是搜索引擎将查询的结果返回给用户,并在检索结果中跟踪用户的点击。如果返回结果中排名靠前的网页被用户点击,浏览时间短,用户返回点击其他搜索结果,则可以认为其相关性较差,系统会降低网页的相关性。另一方面,如果网页被用户点击打开进行浏览,且浏览时间较长,则该网页的热度较高,相应地,系统会增加该网页的相关性。可以看出,在这个方法中,相关程度不断变化。对于在不同时间检索到的同一个词,结果集的顺序也可能不同。这是一个动态排序。
该算法的优点是节省了大量时间,因为用户正在阅读从搜索结果中筛选出的更多合格结果。同时,该算法直接整合用户反馈信息,保证页面质量。
但是统计显示,Direct Hit算法只适用于检索less关键词,因为它实际上并不进行排序,而是一种过滤和提取。当检索数据库很大时,关键词很多时候会返回上千条搜索结果,用户不可能一一查看。因此,这种方法不能作为主要的排序算法,而是一种很好的辅助排序算法,目前很多搜索引擎仍在使用。
事实上,网页的搜索排名是各种算法综合作用的结果。简单分析以上三种算法,Pagerank可以给网站上所有网页的重要性排序,但是没有针对性和相关性。而现在PR值作弊已经到了泛滥的地步,于是PR提出了Hilltop算法,将对广大站长搭建外链起到指导作用。在 Hilltop 算法中,每个领域都会有几个专家页面。如果您搜索相关的关键词,搜索引擎将首先从专家页面搜索。等等。Direct Hit 算法可以作为 Hilltop 和 pagerank 的一个很好的补充。Direct Hit考虑了用户体验的影响,实时更新搜索结果的质量。一个最符合搜索用户要求的页面应该是用户从点击搜索框中的页面链接开始,如果用户浏览网站超过一定时间,将被视为结果页面,更符合用户的搜索需求。长期有效的点击会导致页面在搜索引擎中的排名有相应的提升。.
四、如何调整搜索引擎排名
通过对上述搜索引擎排名算法的分析,我们可以得到以下关键词:hub,相同主题,专家页面。
上述排序算法基本上都是针对与网页外部链接相关的排序,即连接相关性。因此,我们可以通过链接来分析和理解关键词。
集线器代表一种特殊的页面,例如页面目录。它的主要作用是有很多指向专家页面的出站链接,但不一定有很多入站链接;专家页面是指具有许多具有相同主题的外部链接的页面。有关 Gondo 主题的信息可通过专家页面获得,因此可以获得较高的相关性分数。hub页面和专家页面的关系一般是专家页面会有很多指向hub页面的外部链接。
以上是链接相关性的基本描述。对于一个基本的搜索引擎来说,需要对搜索到的关键词进行匹配,得到文本的相关度得分,然后平衡两个得分,得到最终的得分值。, 得到最终的相关性分数。
搜索引擎还需要对页面的热度和新度进行评级,以防止新页面太低而无法搜索。最后,我们可以计算一个总分,通过对总分进行排名就可以得到最终的搜索排名。
五、通过常见的搜索引擎评分机制进行优化
通过学习常用的搜索引擎评分机制,我们可以更好地调整和优化搜索引擎的结果排名。
1. Google 评分
公式如下:
GoogleScore = (KW 使用分数 * 0.3) + (域名强度 * 0.25) +(入站链接分数 * 0.25) + (用户数据 * 0.1) + (Content QualityScore * 0.1) + (手动提升) – (自动和手动惩罚)
从公式可以看出,公式中占比最大的三项分别是相关关键词分值(KW Usage Score)、域名权重(Domain Strength)和出站链接分值(Inbound Link Score) ,其中占0.8,之后Content QualityScore一般需要使用机器学习等方法自动评估,而用户数据(User Data)需要权限和长期统计,需要人工干预由运营商处理,因此无需考虑。
当搜索引擎的最终得分确定后,就可以遵循上述规则,通过调整使用范围,得到所需的评分机制。
由于本人水平所限,文章可能有很多错误,还请在评论中指出见识:)