搜索引擎如何抓取网页(搜索引擎说明它是如何思考的,你知道几个?)

优采云 发布时间: 2021-11-28 09:10

  搜索引擎如何抓取网页(搜索引擎说明它是如何思考的,你知道几个?)

  搜索引擎是一个没有生命的程序。它不能像人一样思考。它的所有行为都取决于算法。

  搜索引擎也有其特定的思维方式,我们称之为“机器学习”或“人工智能”,但这一切的前提都是基于大数据。

  接下来,我用一些点来说明它是如何思考的。

  一、 Bounce rate(搜索跳出率)

  首先,如果你的网站没有放置搜索引擎的相关产品代码(如:百度分享、百度统计),或者你的浏览器没有搜索引擎插件(如:百度工具栏,谷歌工具栏)),搜索引擎无法跟踪用户进入您网站后的行为。(百度输入法等软件是不是通过数据包采集信息,我不知道,也不去想。)

  如果搜索引擎在输入我们的网站后无法监控用户的行为,那它如何计算跳出率?

  答案是:如果你点击排名第一的网站,10秒后点击排名第二的网站,那么排名第一的会被算作不满意点击,即跳出. 然后点击排名第一的网站,30秒后没有点击排名,不点击其他排名的网站,而是关闭搜索引擎?或者您是否搜索了相同类型的相关词,或不同类型的词?你可以想想什么样的行业才算是满意的点击,什么样的行为才算是不满意的点击。

  ​

  前10秒和30秒只是一个例子。我们想表达的是,搜索引擎可以通过用户对搜索引擎的操作行为来评估每次点击的效果。

  ​ ​

  不要说是什么搜索引擎用cookies来追踪用户的行为到网站,这些都是废话。前提是你的网站挂在搜索引擎的相关产品上。

  二、 仍然跳出率

  ​ ​

  什么样的网站可以帮助降低跳出率?那就是将正确的用户带到正确的页面。

  一种。什么是合适的用户?

  ​

  如果你的网站是卖机器的,但是你做了一些不相关的词来获取流量(你知道的词),那么这些用户就是错误的用户,搜索引擎的搜索统计跳出率自然是高的。如果您的词是与您机器的名称或属性相关的词,那么潜在用户就来了,那就是正确的用户。

  ​

  B. 什么是正确的页面?

  把对产品A有需求的用户带到产品A的介绍页面,即正确的页面,带到产品B的页面,即错误的页面。

  一句话,让用户在你的网站中得到他们想要的。这句话说起来容易,但搜索引擎带来的流量有时却出乎意料。一个页面上可能命中的词也可能是你没想到的词,但可以肯定的是,流量基本一致。对象的流量。

  C。例子:

  “美的豆浆机”页面可能出现的要求:

  1、美的豆浆怎么样

  2、了解美的豆浆机价格

  3、 如果你想买美的豆浆机,

  4、 其他豆浆机需求

  针对这些需求的多样性,页面如何更好的满足用户的需求,才能降低跳出率,留住用户。

  ​ ​

  可以丰富页面内容,尽可能留住访问者。例如,除了介绍美的豆浆机的基本情况,您还可以推荐不同款式的美的豆浆机,并列出价格,还可以列出美的豆浆机的购买地址、常见问题解答等内容,以备不时之需看完不喜欢美的,我们也可以推荐不同品牌的豆浆,只要访问者不返回搜索引擎搜索相似词或点击排名,那么搜索引擎会认为你有满足了需求。

  三、思考搜索引擎(大数据、机器学习)

  ​

  终于到了本文的重点。搜索引擎通过评估每次点击的满意度来计算页面的质量。这是一个先决条件,即需要对页面进行排名并导入流量,然后才能进行计算。. 这可能是一些网站一开始排名好,后来不好的原因之一。

  但是搜索引擎不可能每一个网站一出现就排名很好。这是不科学的,用户体验也不好,有没有其他办法?

  如果我们称搜索引擎有排名后的评价:后判断,后验概率

  那么排名前的判断就叫做:预判断,先验概率

  只有通过预评质量分数合格的页面才会进入排名。进入排名后,他们将进入后期判断并重新计算质量得分。

  预判的标准是什么?预判断是从大量经过后判断的页面中提取数据样本进行分析,得到一系列特征码进行预分。

  ​ ​

  举个生活例子:

  通过抽样,我们可以很容易地得出“中国人比外国人更适合中国人”的结论。但这并不是 100% 正确的。

  ​ ​

  机器学习也是利用大数据进行特征统计,得到大概率和特征,然后提前给页面打分

  通过之前的搜索跳出率,是否有以下几种可能:

  ​ ​

  1、 一个页面能满足的同类型需求越多,跳出率越低?

  2、 页面广告越少,跳出率越低?

  3、 一个页面有弹窗,跳出率越高?

  4、页面访问速度越慢,跳出率越高?

  等等。

  搜索引擎的思维是这样的。真正的搜索引擎肯定比这更复杂,但我认为本质的想法是一样的。

  搜索引擎算法绝对不会公开,一切都是猜想,我们要学习的不是相信某个权威,而是要树立正确的思维方式,从常识出发,推导和验证我们自己的想法。

  PS:

  以上只是我个人对搜索引擎思维方式的看法。文章中的例子只是为了说明我的想法,不同意的权利取决于个人。文笔不好,有问题可以追问,欢迎评论。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线