完美:如何做好一个垂直搜索引擎

优采云 发布时间: 2020-08-29 03:01

  如何做好一个垂直搜索引擎

  最近在做一个题库搜索系统(个人项目),需要相关方面的知识。因为属于垂直搜索领域,看到一篇有用的文章与你们分享一下。

  本文先引用几句话:

  1.“确解用户之意,切返用户之需。”

  2.“门户网站都想着是如何省钱,而不是如何花钱来买技术。”

  3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”

  4.“只是优秀还不够,最好的方法是将一件事情做到极至。”

  5.“做搜索引擎须要专注” “对于一项排到第四的业务,门户很难做到专注。”

  6.“用户难以描述道他要找什么,除非使他见到想找的东西。”

  7. “所谓楔形,其实就是个倒三角,倒三角的尖端部份代表搜索技术,中部是基于技术的产品应用平台,最下端是对整个搜索引擎用户人群文化的认识和理解,以及现代公司竞争最关键也最捉摸不定的所谓品牌。” “楔形”蕴涵的另一个意义是:楔子要打到墙里,尖端是否锐利很重要,但楔子的破坏性有多强,究竟能在墙壁挤压出多大的空间,其中端、后端的庄重与厚实才是关键。

  搜索引擎的技术和理念都是须要时间和经验的积累的,更是须要常年不断的建立进步的,绝对不要觉得可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期通常须要是四年。着急不得。原因是因为搜索引擎很复杂,而且“用户难以描述他要找什么,除非使他见到想找的东西。” 一切都须要摸索,尝试,问题须要一个一个解决,用户的须要得一点点的挖掘。

  搜索引擎是一个产品,给用户提供服务的产品,需要常年的不断的改进升级调整能够持续不断的提用户体验,需要满足用户不断下降而且变化的需求、需要不断适应网路的变化。这是因为网路环境是不断变化的、网民的需求也是不断变化的。千万不要把搜索当作项目来做,做完了撂那使用户去用那你肯定没戏。在搜索引擎领域是讲体验的、新的引擎假如用户体验一旦整体上有领先一年以上的差别而且持续2年,那前期的领先者的优势就荡然无存,因为搜索引擎的用户转移成本相对而言是比较低的并且口碑是最佳的传播形式。如果一个搜索引擎不能持续不断的技术创新理念创新,那对于这个搜索引擎来说就等于死亡。我们通常形容搜索引擎的领先是以时间估算的。比如:中搜距百度整体差别×年,百度距 google 的整体差别×年,……只要你能在用户体验上保持一年的领先优势持续 2 年,不需要炒作,一切纷至沓来。在用户体验面前,任何的炒作都变得太渺小。

  作垂直搜索引擎,麻雀虽小,但是五脏俱全。无论理念文化、产品管理、应用、技术都和搜索引擎的楔形理论没有哪些区别。所以要做好一垂直搜索必须解决这几个方面。

  楔形的尖:垂直搜索技术。

  垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或则手动生成模板的形式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速施行、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数目上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方法最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取。这就造成这些方法数据容量上和模板方法有质的区别,但是其灵活性差、成本高。当然模板方法和网页库级的形式不是对立的,这二者对于垂直搜索引擎来说是互相补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。

  搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对先前而言愈发成熟,但是竞争也愈发激烈了。垂直搜索大致须要以下技术:

  1. 信息采集技术

  2. 网页信息抽取技术

  3. 信息的处理技术,包括:重复辨识、重复辨识、聚类、比较、分析、语料剖析等

  4. 语意相关性分析

  5. 分词

  6. 索引

  信息采集技术,垂直搜索引擎 spider 和网页库的 spider 相比应当是愈发专业,可多样化。可定向性的采集和垂直搜索范围相关的网页忽视不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频度,采集可通过人工设定网址和网页剖析url形式共同进行。垂直搜索对信息的更新有着非常的要求,根据这种特征可以从以下几点考虑

  1.信息源的稳定性(不能使信息源网站感觉到spider的压力);

  2.抓取的成本问题;

  3.信息的可信程度;

  4.对用户体验改善程度。

  根据以上几点制订一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或爆光系数)、网站稳定系数,根据这种系数来确定对那些网站/网页更新的频度。再因为新信息和更新了的信息 list 页面上面或则首页,所以对网页进行挺好的分级可以以低成本挺好的解决更新问题,系数比较低的网页十月 update 一次,稍微低点的一周 update 一次、中等的几天到三天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……

  基于视觉网页块剖析技术,模拟 IE 浏览器的显示方法,对网页进行解析。根据人类视觉原理,把网页解析处理的结果,进行分块,再依照须要,对那些块进行处理,如:采集定向、介绍抽取和一些必要的内容的抽取正文抽取……

  结构化信息抽取技术,将网页中的非结构化数据根据一定的需求抽取成结构化数据。有两种方法,简单的就是模板方法,另外就是对网页不依赖 web 结构化信息抽取形式,这两种方法可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以 web 结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实 web 结构化信息抽取在百度、google 早早已广泛应用了,如:MP3、图片搜索、google 的本地搜索就是从网页库抽取出企业信息,添加到其地图搜索中的,google 通过这些技术正在颠覆做内容的形式。同样的技术应用还在 qihoo、sogou 购物、shopping 等各类应用中彰显。

  简单的句型剖析,简单的句型剖析在搜索引擎中十分重要,可以通过简单的句型剖析来改善数据的质量,低成本的获得某类信息,改善排序,寻找须要的内容。

  信息处理技术,信息处理包括的范围比较广,主要包括去重、聚类、分析……,这依照须要相关的技术就十分多。

  数据挖掘,找出您的信息的关联性对于垂直搜索来说十分重要,有效,可以在这种相关性上为用户提供更细致的服务。

  分词技术,面向搜索的动词技术,建立和您的行业相关的词库。注意这是面向搜索的动词,不是面向辨识和确切的动词。就这个工作安排十几个人不停的维护也不会嫌多。

  索引技术,索引技术对于垂直搜索十分关键,一个网页库级的搜索引擎必须要支持分布索引、分层建库、分布检索、灵活的更新、灵活的残差调整、灵活的索引和灵活的升级扩充、高可靠性稳定性冗余性。还须要支持各类技术的扩充,如偏移量估算等。

  其它技术,略。

  垂直搜索引擎的技术评估应从以下几点来判定

  1. 全面性

  2. 更新性

  3. 准确性

  4. 功能性

  锲形的中和尾:产品应用平台和对搜索引擎文化理念的理解

  对于任何一个产品来说,产品的模式是最重要的,技术只是手段、工具、途径。用户不会关心你的技术是怎样实现的、更不会关心你的技术水平是什么样的,只要用户觉得:这就是我须要的东西,很好用,而且是最好用的。那么你的产品就 OK 了。

  考虑一个产品的模式须要考虑的东西好多,如:用户须要哪些?需求有多大?能不能完整的实现用户的需求?需要哪些资源?怎么做到?竞争剖析?差异化?根据自身情况能做到哪些程度?怎么样保持领先优势?能否收到钱?怎么样付钱?怎么样推广?需要多少时间?如何保证在时间窗口期内有效完成进度?如何分步分期优先完成用户最须要的需求?如何构建有效的反馈机制使我可以了解用户的需求变化和挖掘用户自己也没法抒发的需求?如何进一步改善?分期须要多大的投入?如何增加整体成本和前期成本?如何分期投入?投资回报比?周期?……

  1. 确解用户之意

  任何应用最难的就是了解用户的需求,甚至是用户自己都不知道的需求。

  建立健全的、快速的用户意见反馈机制和用户需求调查机制,所有人都应聆听用户的牢骚、建议。不断的剖析、修改。

  2. 切返用户之需

  满足用户的需求,一切纷至沓来。不需要炒作,请把您的资源多多耗费在为用户提供良好的体验上来。

  3. 不要干扰用户的意图,培养用户的使用习惯和方法

  有一个故事是这样的:还在 yahoo 使用 google 的搜索的时侯,*敏*感*词*的几个分析师来评估这两个搜索那个好用,去掉 logo。结果一致评价 yahoo 的检索效果好。因为 yahoo 是使用的 google 检索结果,并且对热点关键词进行了人工调整。但是一转身这种分析师回到自己的笔记本边查询东西,不约而同的打开了 google。

  4. 细节决定胜败

  信息不是越多越好,在海量的信息时代,如果不能妥善的整理信息,那就等于没有信息。每个页面的每位字,每个象素、图片的放置都值得耗费时间去寻思。把用户最须要的置于最醒目的位置,次须要的放置到更多页面,不需要的丢弃。

  5. 将一件事情做到极至

  不仅仅要关注 80% 的用户的 80% 的需求,20% 的用户的 20% 的需求是您胜败关键所在。

  6. 专注

  这么多需要你解决的问题,你就能干其它事情?对于一个排在第四的业务你是没有机会的。所以垂直搜索引擎的成功肯定不是具备良好资源的行业门户、也不会是大搜索的公司,必然是专注于某一行业的搜索引擎公司。因为只有专注,才能将一件事情做到极至。

  7. 创新

  失败不要紧,但是假如搜索引擎公司没有创新,那这个搜索引擎公司必然面向的就是死亡。

  8. 需要完全把握主要技术。

  一个核心业务不可能通过外包手段来解决技术问题。虽然找个大公司外包技术看起来太美丽,很快速,甚至成本比较低。但是这是在毁灭你的将来。因为这是产品,不是项目。产品是须要不断建立调整的,用户的需求也是变化的须要挖掘的,互联网也是变化的,你外包技术绝对不可能做到灵活、及时满足各类变化。在和竞争对手竞争的时侯您怎么保持您的领先优势?(前文说了,如果被对手保持领先一段时间,那么你之前的领先优势就荡然无存)。这里还没有考虑竞争问题,购买其它搜索引擎公司的技术,对方会不会把真正的技术毫不保留的借给你。再说,卖你你你能看懂吗?技术再困难也要自行解决。否则你注定失败。最好的办法就是订购核心技术减短研制周期、成本、风险,再在这个核心技术进行自主研制。

  这是垂直搜索的技术门槛,看似不高,其实很高。

  对于技术问题可以迂回解决,用最简单的技术满足用户最急迫的需求。用户是不会关心技术实现的。

  模板方法可以是网页结构化信息抽取技术的补充。对于可行的应用初期采用模板技术也是不错的选择。比如 chinabbs 就做的挺好,用户的主要需求是要浏览到好的贴子,所以强化内容的建设,找高水平的编辑做推荐,而且在界面和易用性上也很不错。领先 qihoo。技术方面她们早期采用的应当是模板手动生成方法采集论坛信息,比 qihoo 技术水平差,但是这目前不是用户需求的关键,而且 qihoo 技术水平层次似乎高而且假如不成熟,体现给用户的东西未必就强。Chinabbs接下来再解决技术难点,在技术上有提高,那么他能够持续保持领先优势了。(但是话又说回去,招聘好的编辑很容易,技术要提高一个层次而且成熟很难,而且太花费时间,当然用户习惯和知名度也是须要太长时间培养的)

  9. 用最简单的技术实现用户最急迫的须要

  技术重要,但是技术的使用得当更重要,技术是为用户体验服务的。只要能满足用户须要,什么技术都可以,简单不代表不行,用最简单的技术实现用户最急迫的须要。百度的整体技术我觉得距 google 中文起码有1年以上差别,很多方面差别更大,但是百度的疗效比 google 好,原因就是将简单的技术用于实现用户急迫的需求。

  举个我身边的事例来描述简单的技术实现需求:我把我们的基于视觉的网页块剖析的正文抽取技术演示给一好友看,好友看后说:我们也实现了。我大惊,他们不是做搜索的,居然也实现了! 他告诉我她们实现的方式后,我再度惊愕,深感简单的技术也可以挺好的解决问题,虽然不完全解决,但是能满足自己的需求就好。他们的解决方式是:对网页的 html 进行剖析,将整段文字中没有 html 代码的文字提取下来,这就是正文。(惊叹!!如此简单!!注:他们的信息源都是这样的格式)

  10. 根据中国本土互联网特性,强力的 antispam,对信息进行清洗。

  11. 很多人误会垂直搜索就是把相关的行业网页做一个采集,进行正文抽取,实现搜索,完成信息册查询。其实并非这么。如果这样难以和网页搜索竞争,网页搜索很容易就可以将网页库按行业分类、按地区分类。

  垂直搜索应当是对垂直行业信息进行深度的加工,有效的整合,为用户提供网页搜索未能做到的专业性、功能性,为用户提供深一步的服务和完整的体验,而且不仅仅是提供信息的检索。垂直搜索是和信息搜索有本质的差异化的。

  12.专注用户体验的改善,任何的宣传炒作都是空乏无意义的,搜索引擎的核心在于用户体验,你只要改善用户体验,比他人强一点点,那么其它人的炒作和宣传都在为你打工。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线