搜索引擎优化创始人(Google究竟成功的秘密在哪儿?(1))
优采云 发布时间: 2022-03-13 12:25搜索引擎优化创始人(Google究竟成功的秘密在哪儿?(1))
随着“眼球经济”席卷互联网,数千美元迅速流向搜索引擎市场,最为抢眼。大量调查显示,搜索引擎市场正处于高速发展期,成为未来几年最具发展潜力的行业之一。随着谷歌、百度、中国搜索等特色搜索引擎逐渐成为最常用的网络工具,企业对搜索引擎的关注度也从“观察”升级为“用武”。
随着市场容量和用户数量的不断增加,如何完善搜索功能,使其更加公平、开放、规范、人性化,成为人们关注的话题。但其中不断出*敏*感*词*钱和用户需求之间的平衡?
【专题】谷歌成功的秘诀
截至2004年,谷歌()已连续两年被评为世界第一品牌。谷歌成立才五年,最初是两名斯坦福大学学生的研究项目。这不得不说是一个奇迹,就像比尔盖茨创造了一个奇迹一样。比尔盖茨之所以能创造奇迹,是因为他看到了个人电脑软件市场的趋势,所以他创立的公司就叫做微软(Microsoft):Micro(小)Soft(软件)。谷歌呢?在谷歌出来之前,已经有一些非常成功的搜索引擎公司,实力也很强。看来,不仅谷歌看到了搜索的趋势。谷歌成功的秘诀是什么?
谷歌的成功背后有很多因素,最重要的是谷歌对搜索结果的排名比任何其他搜索引擎都要好。谷歌保证大多数使用搜索的人可以在搜索结果的第一页找到他们想要的结果。如果顾客满意,下次还会再来,还会介绍给其他人。结果,更多的人会使用它。因此,谷歌在没有做任何广告的情况下,将自己打造成了世界上最大的品牌。Google 使用哪种分类技术?PageRank,页面级别。
谷歌有一位名叫拉里佩奇的创始人。据说他申请了PageRank的专利,所以就有了PageRank的名字。中国还有一家非常成功的搜索引擎公司叫百度。百度创始人李彦宏表示,早在 1996 年,他就申请了一项名为超链接分析的专利。PageRank的原理和超链接分析一样,PageRank还是Paten-pending(专利申请中)。这意味着这里存在专利所有权问题。这里不讨论专利权属问题,但从中可以看出,成功搜索引擎的排名技术在原理上是相似的,即链接分析。超链接分析和PageRank都属于链接分析。
链接分析到底是什么?由于没有具体介绍李彦宏的超链接分析,所以我看到的只有美国专利局关于李彦宏的专利介绍网站。PageRank的介绍也不少,毕竟Google是世界上最大的搜索引擎。这里以PageRank为代表,详细介绍链接分析的原理。
PageRank 揭晓
PageRank 的原理类似于科学论文中的引用机制:谁的论文被引用次数最多谁是权威。说得更通俗一点:张三在谈话中提到了张曼玉,李四在谈话中也提到了张曼玉,王舞也在谈话中提到了张曼玉,也就是说张曼玉一定是名人。在互联网上,一个链接相当于一个“参考”。在 B 网页中链接 A 相当于 B 在对话中提及 A。如果 A 在 C、D、E、F 中链接,那么 A 网页是最重要的,页面 A 的 PageRank 值最高。
如何计算PageRank值有一个简单的公式:
其中:coefficient是一个大于0小于1的数。一般设置为0.85。页面 1、 页面 2 到 N 表示所有链接都指向 A 的页面。
从上式可以看出三点:
1、链接到A的页面越多,A的等级越高。即A的等级与指向A的网页数成正比。用公式表示,N越大,A级越高;
2、链接指向A的网页,网页级别越高,A的级别越高。即A的级别与指向A的网页的级别成正比。用公式表示,网页N的级别越高,A的级别越高;
3、链接指向A的网页,链接数越多,A的等级越低。也就是说A的等级与指向的页面链接的页面数成反比A、公式中,N外链的页数越多,A的等级越低。
每个网页都有一个PageRank值,形成一个庞大的方程系统。通过求解这个方程组,可以得到每个网页的PageRank值。互联网上有数百亿的网页,所以这个方程组有数百亿的未知数。这个方程虽然有解,但计算太复杂,不可能把所有这些页一起解。对具体计算方法感兴趣的朋友可以参考一些数值计算书籍。
总之,PageRank 有效地利用了 Internet 拥有的庞大链接结构。从网页A到网页B的链接,用谷歌创始人的话来说,就是A页面对B页面的支持票。谷歌根据票数判断页面的重要性,但除了number of votes(链接数)、Google、Voters(链接页面)也进行了分析。具有高“重要性”投票的页面将被评为更高,因为接受投票页面将被理解为“重要项目”。如果从新浪、雅虎和微软的主页有三个链接到我的网页,那可能比我在其他网站中找到三十个链接更好。如果还有人不明白这个道理,想一个成语叫:三人成虎。
每个网页都会有一个 PageRank 值。如果你想知道你的网站网页的PageRank值是多少,最简单的方法是下载一个免费的Google Toolbar(),
每当你打开一个网页,你都可以清楚的看到这个网页的PageRank值。当然这个值是一个大概的数字。
据谷歌技术负责人介绍,除了用PageRank来衡量网页的重要性外,谷歌还有数百个其他因素参与排名。其他搜索引擎也是如此,不可能按照一定的规则对搜索结果进行排序。
其他方法
山顶算法:
HillTop 也是一项搜索引擎结果排名的专利,2001 年由 Google 的工程师 Bharat 申请了专利。Google 的排序规则变化频繁,但最大的变化是基于 HillTop 算法。HillTop 的原理是什么,值得谷歌青睐?
其实HillTop算法的指导思想和PageRank是一样的,都是通过网页链接的数量和质量来决定搜索结果的排名权重。但 HillTop 认为,仅计算来自具有相同主题的相关文档的链接对搜索者来说更有价值:也就是说,与主题相关的页面之间的链接对权重计算的贡献大于与主题无关的链接。如果网站是关于“服装”的,10个链接来自与“服装”相关的网站,那么这10个链接比其他10个来自“电器”相关的网站链接贡献要多更大。Bharat 称此类影响主题的文件为“专家”文件,
将 HillTop 算法与 PageRank 相结合以确定页面与搜索的匹配程度的基本排名过程 关键词 取代了过于依赖 PageRank 值来查找那些权威页面的方法。这对于HillTop算法在两个主题相同、PR相似的网页的排名过程中非常重要。HillTop 还避免了许多试图通过添加许多死链接来增加页面的 PageRank 的作弊行为。
锚文本
锚文本名称可能听起来难以理解,但锚文本实际上是链接文本。例如,如果 CCTV ( ) 用作个人 网站 上新闻频道的链接,则访问者可以通过点击 网站 上的“新闻频道”进入 网站 ,那么“新闻频道”就是央视网站首页的锚文本。
锚文本可用作对放置锚文本的页面内容的评估。通常情况下,添加到页面的链接会与页面本身的内容有一定的关系。服装行业网站会增加一些同行网站的链接或者一些知名服装公司的链接;另一方面,锚文本可以用作对指向页面的评估。锚文本可以准确描述所指向页面的内容,给个人网站添加一个谷歌链接,锚文本是“搜索引擎”。这样,你就可以从锚文本本身知道谷歌是一个搜索引擎。
锚文本对搜索引擎的作用是可以采集一些搜索引擎无法索引的文件。比如一张张曼玉的照片被添加到网站中,它是jpg文件格式,目前搜索引擎很难索引(一般只处理文字)。如果这个照片链接的锚文本是“张曼玉的照片”,那么搜索引擎就可以识别出这张照片是张曼玉的照片,以后访问者搜索“张曼玉”时,这个图片就可以搜索。
可以看出,在网页设计中选择合适的锚文本会增加你所在的网页和你所指向的网页的重要性。
页面布局
每个网页都有一个布局,包括标题、字体、标签等。搜索引擎还使用这些布局来确定搜索词与页面内容的相关程度。以静态html网页为例,搜索引擎通过网络蜘蛛抓取网页后,需要提取body内容,过滤其他html代码。提取内容时,搜索引擎可以记录所有的排版信息,包括:哪些词出现在标题中,哪些词出现在正文中,哪些词的字体比其他词大,哪些词加粗,哪些词已经用关键字等。这样,在搜索结果中,可以根据信息确定搜索结果与搜索词的相关程度。比如你搜索“*敏*感*词*”,