内部信息源与外部信息源搜索引擎优化方法的异同(微信搜一搜的动作可能正是未来搜索引擎的发展方向!)
优采云 发布时间: 2021-10-29 14:17内部信息源与外部信息源搜索引擎优化方法的异同(微信搜一搜的动作可能正是未来搜索引擎的发展方向!)
从之前的黄页到现在的算法推荐,虽然我们接触到了更多的信息,但不一定是质量更高的信息。搜索市场拥有巨大的流量池,这是一个无法抗拒的巨大诱惑。微信搜一搜的动作可能是未来搜索引擎的发展方向,各种搜索引擎可能正在酝酿一场大战。
01
信息不对称是这个时代的核心竞争力之一。
如果我知道一件事,而你不知道,那么你在竞争中不可避免地会面临劣势,甚至会有所收获。因此,采集和组织信息的能力是这个信息爆炸时代最重要的能力之一。
过去我们面临的问题是没有足够的信息来查找;我们现在面临的问题是垃圾邮件太多,有效信息和垃圾邮件放在一起。
很多人问我采集数据最常用的工具是什么?
事实上,答案并不是唯一的,因为我总是根据要采集的数据的特征来选择匹配工具。不同工具的内容方向不同。
如果你要找深入的内容,除了搜索学术论文,我用的最多的是人们不太了解的东西。微信搜索。
搜一搜一直被视为微信的辅助功能。很多人用过,但可能不明白这个产品在我眼里是一个非常高效的搜索引擎。
例如,医疗。
我用搜一搜搜索“头疼”关键词,它会告诉你某城市某医院具体哪个医生审核了这个内容,审核通过了。
这个标签好像是很小的一行字,没有重点。但是在信息方面,这些信息的来源是透明的,并且是由专业人士提供的,这就决定了这个信息是可以被信任的概率很高。信息检索中的一个大常识是,如果您不知道来源和统计来源,则无法完全信任这些信息。
将找到的每一条健康信息都归属于特定的人是一件非常麻烦和复杂的事情,但对于搜索引擎来说却非常重要。
信息只有在可信的情况下才有意义。
当然,其他搜索引擎也可以搜索健康信息,但互联网上的共识是,医疗是“不可动摇的”。不建议使用搜索引擎搜索健康信息是常识。
搜索引擎信息的可信度一直是毒瘤。以健康领域为例。
搜索引擎与健康息息相关。最大的隐患是普通搜索引擎无法识别医疗信息的真假,因此既无法提供专业医生对正确知识的背书,也无法筛选出灰色分娩的伪医学。
搜一搜给出的解决方案非常简单粗暴。
1)标准化搜索结果
具体医生身份溯源信息直接在搜索结果中给出,相关医生可在医院官网查询核实。这在最大程度上缩小了在搜索引擎上获得的信息与线下医院从医生那里获得的信息之间的差距。
2)直接提供在线注册服务
这让用户比以往更方便地挂号,最终目的是引导用户到标准化的线下医院,而不是作为盈利渠道。
对于掌握流量和内容分发的搜索引擎来说,这种自律和审慎非常重要,不仅是为了保护用户,也是为了保护自己。
严格来说,搜索引擎没有必要做这样的事情。搜索引擎只提供爬虫,不提供识别,这是业内公认的规则,但做这样的事情其实对用户更负责。
用户搜索行为的结果不仅是“信息”,还有“服务”,甚至是为用户量身定制的服务(与医生*敏*感*词*咨询)。
并把这个功能集成在微信这样的全国性应用上,背后是微信的游戏。
利用搜索引擎激活存量资源,形成更大的协同生态。
没有我的人,有我的人更好,还有比我更好的人。
这不仅是技术问题,更是思维上的差异。
02
搜索引擎并不新鲜。
我们一般将搜索引擎分为四代。导航网站(黄页模式)是第一代。你可以看到你给了你什么。
它是提供最简单的文本检索功能的第二代。人们可以简单地输入自己需要的内容,但受到网站内部数据库的限制。二代后期,搜索引擎解决了内部数据库问题,利用爬虫对公共领域信息进行爬取。理论上,数据库是无限的。
事实上,我们最常用的是第二代搜索引擎。
从第三*敏*感*词*始,搜索引擎开始预测用户的意图和习惯,在搜索结果中插入高亮信息。该信息可以是搜索引擎认为更有效的信息,也可以是广告。
前三代搜索引擎专注于制造商的需求。
第四代搜索引擎基于以用户为中心的移动互联网时代。最大的特点是搜索的个性化。基于用户的理解,搜索方法、搜索类型和搜索结果必须被成千上万的人所依赖。
搜索引擎的历史不长,但技术飞跃非常快。
虽然为用户带来更便捷的内容分发体验的核心逻辑没有改变,但在搜索引擎的进步中,也涌现出了很多非常有趣的技术原理,甚至涉及伦理、法律、社会公序良俗等。
首先是爬虫技术。
网站 其实不欢迎私人爬虫,因为爬虫的流量会增加网站的负担,但不能带来真正的流量。
因此,现在很多网站都配备了验证码,以确保所有访问请求都来自真实用户。
但是,网站 非常欢迎搜索引擎爬虫,并且不会被拒绝。被搜索引擎抓取,收录可以增加网站的曝光率,甚至对于很多缺乏冷启动的小公司来说也是如此。网站对于搜索引擎来说,爬出来是他们获取流量的唯一渠道。
搜索引擎的爬虫技术其实没什么好谈的。技术再好,最后也能爬出来。唯一的区别在于爬行过程的技术成本和效率。
然而,爬取+收录的行为似乎是一种表演操作。有一家公司叫inktomi,它不作为搜索引擎,而是为其他公司提供搜索技术。这在互联网早期是一个非常重要的搜索引擎技术供应商,而它自尽的原因是inktomi开始要求网站付费才能被接受。
实际上,搜索引擎的搜索结果就是它提供给用户的产品。网站是收录获取流量,搜索引擎收录网站获取更多内容,本来就是双赢的事情。
如果要求一方给钱,性质就变了。
后来雅虎和谷歌因为他们的免费战略而取得成功。
搜索引擎是很赚钱的,但是过度追求金钱最终必然会导致失败。这是搜索引擎的第一课。
另一个例子是搜索结果的排名机制,它也经历了非常有趣的演变。
整合了二代搜索引擎的排序机制和爬取机制,使用了一些信息检索模型,如布尔模型、概率模型或向量空间模型。
在这种机制下,不存在排名问题,因为返回给用户的是一个链接列表,里面会收录大量用户不关心的链接,用户必须全部阅读才能找到他们需要的内容。
在第三代搜索引擎中,链接列表被取消,搜索结果以搜索界面的形式展示,这是我们现在看到的大多数搜索引擎。
问题是,在这个界面中,哪些搜索结果应该排在第一位,哪些应该排在后面,这将直接影响搜索结果的曝光率。
当时各个搜索引擎用不同的逻辑来判断这个问题。
比如早期有一个搜索引擎叫Direct Hit,排名机制主要是由用户对搜索结果的点击率决定的。
一开始,这种方法确实增加了用户看到高质量搜索结果的可能性,并且 Direct Hit 流行了一段时间。
但很快,利用机制漏洞刷点击率提高搜索排名的骗子出现了,搜索质量也急剧下降。
这种情况其实在逻辑上与目前一些欺骗点击率的标题党非常相似,只是标题党更多地针对推荐机制。
这是搜索引擎吸取的第二个教训,并不意味着更多的人是正确的。
其实,排名机制本身可以通过技术达到更好的效果。例如,谷歌使用*敏*感*词*矩阵计算来确定网页的价值和可信度。
在这个时代的信息洪流下,谷歌每次检索和排名都需要完成十亿级矩阵计算,甚至一度陷入算力瓶颈。最后,采用分布式计算方法解决计算能力问题。
这些公司通过各种方式调整搜索引擎的排名机制,固然是为了在竞争中取得优势,但另一方面也是因为排名机制的重要性。
不同的排名机制决定了用户从搜索引擎获得的信息,思考信息的本质。
思想的力量是难以衡量的。
互联网上搜索引擎的结果,以及搜索结果的排名,可以直接影响用户在现实中的决策。
从某种意义上说,搜索引擎是可以影响用户命运的产品。
03
我们常说技术没有价值。这是正确的,但并不完全正确。因为很多人们刚需的技术需要以价值观为导向。尤其是搜索引擎,流量巨大,更是一座金矿。
1998年2月21日,后来更名为Overturn的搜索引擎GoTo想出了一个“天才”操作。
它开始出售搜索结果排名,谁支付的多,谁就可以指定谁排名第一。
这一决定引起了GoTo的批评。舆论的主要焦点是GoTo是否有足够的资格审计愿意出钱的机构甚至个人。
如果没有严格的访问机制,那么这不仅仅是广告的问题,还会把搜索引擎变成一个只花钱就能驱动的工具。
迫于舆论压力,GoTo对Pay For Placement服务进行了严格的限制。
道德最初赢得了金钱。
当时的社会普遍看好,认为未来搜索引擎会更加注重基本的社会公德。
但事情并不像预期的那样。随着时间的推移,这个付费排名后来发展成为更“天才”的竞价排名,彻底打开了潘多拉的盒子。
事实上,当前的搜索引擎面临的问题是,在搜索引擎发展的早期,已经有无数死掉的搜索引擎产品踩到了坑。
太阳底下没有新鲜事。
作为一个可以极大地影响人们的产品,如何使用它是一种价值观的考验。企业在制定盈利策略时,无论是把用户当成一个活生生的人,还是仅仅把用户当成可以变现的“流量”。“看它,它会直接决定公司做什么。
微信搜一搜提供的“问医生”服务,就是寻找对人负责的健康信息。这些东西几乎没有什么经济效益,还要耗费大量的投资。
但本质上,这不是经济账户。
在排除一切利益考量后,主动承担社会责任,这是一家拥有搜索引擎等产品的企业必须做出的选择。
事实上,搜索引擎最恰当的定位不是单纯的盈利产品,而是优质内容矩阵的串联。谷歌这样做,微信也这样做。
直接用搜索引擎赚钱就和卖原材料一样,总是在产业链的下游。
搜索引擎需要有社会责任感,流量需要更智能地使用。
更何况,在这个存量的时代,谁也没有多少流量资源。
谁能做好搜索引擎的流量,谁就能灌溉一亩三分地的土地,甚至能帮到别人的水源。
04
搜索引擎的核心痛点是什么?这是效率,没有别的。搜索引擎的迭代,其实就是效率的迭代。
世界上第一个网络搜索引擎是万维网漫游者。它只能采集网址,没有重定向功能。您必须自己知道 URL,记住它并输入它。
所以很快就被淘汰了。
未来出现的搜索引擎会一步步往方便的方向发展。
首先,ALIWEB增加了索引文件元信息的功能,即可以搜索标题和标签,于是第一个全文搜索引擎WebCrawler出现了。您只需要输入整个文件内容的一部分关键词即可获取整个文件信息,并跳转到其所在的网页。
这些原创的搜索引擎对于上网人数少、网络内容不多的情况也足够了。
不仅是 Woeld Wide Web Wanderer,包括早期的 Yahoo! 它甚至不是严格意义上的“搜索”引擎,而是手动编辑的网站目录,即第一代搜索引擎,黄页模式。
当时雅虎!增长很快,因为手工编辑可以保证信息质量,而且只要手忙脚乱,其实对用户来说是非常方便的。
从搜索引擎早期的变化可以看出,搜索引擎的原理本质其实是内容的分发。
后续所有的技术升级都是因为互联网上的数据太大,无法人工分发,需要技术来代替人工。但这是因为搜索引擎本身需要它,而不是用户的需要。
当用户数量少、内容库少时,不需要搜索引擎,或者只是一个详尽的列表。
早期的内容分发可能非常粗糙,用户可以自行浏览分类信息。
而当用户的需求以及可能满足这些需求的内容达到1亿时,搜索引擎不可能手动分发如此庞大的信息量。只有技术可以更有效地将这些内容分发给需要它的人。.
技术是有效的,但它没有价值。
如果只看信息的平均质量,现在首页的前几项被竞价排名的搜索结果所占据,而后几项则被已经找到搜索引擎算法的搜索引擎所占据自媒体@ >. 它可能不如 1994 年的雅虎。
现在市场上的主流搜索引擎在技术上都是相似的,原则上没有区别。
除了技术,用户为什么还会选择不同的搜索引擎?未来搜索引擎差异化竞争,差异应该在哪里?
答案是效率。
搜索引擎的迭代本质上是效率的迭代,在给用户带来的便捷度上不断突破。
很多人认为搜索引擎的弱点是广告,但广告并不是核心问题。
没有广告但找不到有用信息的搜索引擎也是不合格的。
搜索引擎的真正核心是帮助用户高效解决问题。
但现在要进一步提高用户效率,帮助用户解决问题,实际需要的不是技术上的提升。现在的技术已经足够了。
爬虫技术,数据存储技术,这些技术在当代已经被发现了。
用户不需要把亿级的所有信息都呈现给他,事实上,世界上任何一个搜索引擎都不会抓取超过30%的互联网内容,但任何一个搜索引擎的主要问题都不会是搜索。没有足够的信息。
当我们搜索那些关键词时,我们真的需要数亿条结果吗?
以后我们真的会把搜索页翻到几千页吗?
当然不是。
所以搜索引擎的下一个突破点不是技术。
不同搜索引擎抓取的内容本质上是不同的。两个主流搜索引擎之间至少有70%的爬取内容是不同的。达到一定数量级后,信息量就不再重要了。
因为在搜索引擎上,对于同样广泛的用户需求,总会有无数等效的替代品。
每个人都需要的是高效、准确和有用的东西。
只有与用户本身密切相关的搜索,所需的结果是明确且唯一的。
这是微信搜一搜的核心机会。
在这个时代,谁有坚实的基础。
05
搜一搜好用,因为它背后的数据壁垒本质上是无底的。在写文章的时候,经常需要搜集资料。很多情况下,我想要的不是具体的结果,而是围绕关键词的一系列信息。信息质量在这个时候非常重要。
无论我使用哪个搜索引擎,我都能找到很多搜索结果,但是如果搜索到的内容质量不高,我将很难对其进行细化。
我在这里引入一个概念,“信息噪声”。搜索引擎给你的搜索结果大多是信息噪声,用现在的技术很难解决。
技术可以判断搜索结果是否与您的需求密切相关,但很难判断搜索结果中的信息是否优质。
最简单的例子之一,当搜索引擎去全网抓取信息时,你不得不面对一些批量洗稿产生的“信息噪音”。
这些东西可能都来自同一个与你的需求密切相关的内容,但是经过数百次的清洗,如果仍然挤在搜索引擎给出的结果页面上,只会浪费用户的时间和生命。
对于那些相关性强但质量不高的内容,只有具备一定知识甚至审美水平的人工审核才能区分。
早期的搜索引擎采用网站的编辑方式,手动对搜索结果进行一一审核,以减少噪音。
但在这个时代,没有哪个搜索引擎可以雇佣这么多人来检查它爬取的所有数据。
所以在写文章的时候,我用微信搜索来搜索资料。这时候,搜一搜的内容来源就成为了一个非常核心的优势。
其资源主要来自公众号。
每个微信公众号的创建者都相当于早期搜索引擎的人工编辑。他们正在利用他们的集成能力甚至创造能力为搜索引擎提供高质量和实时的更新。抓取资源。
为什么搜一搜是搜索引擎的加分项?除了前面提到的以用户为中心的突破之外,搜一搜的搜索结果也经过了人为筛选。
而且筛查人员的水平也不错。公众号和自媒体0@>都是中文领域最优质的内容聚合。微信公众号系统独有的原创标识,离批量洗甚至几百米。我发现的每一个结果的背后,可能都有一群文字专家的心血。
在这种模式下,搜索获得高质量信息的频率和概率远远超过纯技术驱动的搜索引擎。
因为在这个搜索引擎入口的背后,是微信建立的庞大的内容生态。
尤其是搜一搜的内容来源其实是半开放的。搜一搜一直在推出新的可靠平台。现在不仅可以搜索微信公众号文章,还可以访问自媒体0@>等外部信息源。在不同的专业领域,他们也在寻找最专业的内容供应平台进行该领域的合作。
比如在健康领域,腾讯医学词典和企鹅医生是相通的。与搜索引擎一次搜索将用户链接到数百个不同的小型医疗信息平台关键词相比,搜索显然是一个内容来源“出圈”,内容更加优化,质量信息搜索来源更可靠。
搜一搜背后的3000万公众号资源,以及整个自媒体0@>存放的深度内容,已经足够丰富了。
或许他们没有去全网抓取信息的搜索引擎丰富,但用户搜索本身的目的并不是为了丰富。他们想要的是准确性、深度和有效的问题解决。
与撒网相比,在互联网的信息海洋中,搜索引擎更需要培养的是点对点捕鱼的能力。这种能力的背后是数据存储。
这才是第四时代搜索引擎真正的核心竞争力。
或者说得更直白一点,搜搜好用。精髓在于微信。它拥有11亿用户,聚合了N种生活服务,通过携带一个小程序也可以完成几乎任何服务。一个巨大的、自我完善的生态。
搜索引擎本身并不是一个大杀手,而是搜索引擎带来的库存资源的激活。
06
那你找到了吗?为什么微信这个时候开始搜索呢?随着股市的竞争越来越激烈,搜索引擎的重要性将更加凸显。在股市中,谁能激活他的股票资源,谁就赢了。
仍在使用增量市场思维烧钱的公司将死亡。
做一个好的搜索引擎的目的不是靠搜索引擎赚钱,而是服务整个商业模式和存量资源。
这是一个真正属于大公司的战场,受考验的不仅仅是搜索引擎本身。
这是搜索引擎背后的东西。
最近所有的努力都在搜索引擎的背后,这也是基于这个逻辑。
阿里的夸克,头条搜索,加上微信搜索。
新模式即将开始。