内部信息源与外部信息源搜索引擎优化方法的异同( 利用垂直搜索次数的1.56%，Google、Yahoo、Bing)

优采云发布时间: 2022-03-10 04:03

　　内部信息源与外部信息源搜索引擎优化方法的异同(

利用垂直搜索次数的1.56%，Google、Yahoo、Bing)

　　近年来，随着网络信息容量的增加和类型的多样化，作为网络信息检索系统的通用搜索引擎，已经不能满足特殊领域、特殊人群的精准信息需求。搜索引擎的服务模式将被细分，针对不同行业将出现更精准的垂直搜索服务。但据统计，垂直搜索的使用率仅为网络搜索的1.56%。面对这种情况，各个搜索引擎公司为了满足用户的需求，同时对多个信息源进行垂直搜索，对从各个信息源采集的搜索结果进行聚合，然后使用网络给用户。

　　Naver在韩国率先开展聚合搜索业务。2000 年，Naver 开始将聚合搜索服务商业化。截至2011年6月，Naver已占据韩国国内搜索市场77%的份额，是韩国使用率最高的搜索引擎。目前，谷歌、雅虎、必应、百度等世界知名搜索引擎公司也纷纷开展聚合搜索服务。

　　然而，这些公司的网络搜索引擎公司并不经常进行聚合搜索。是否实施聚合搜索不仅要根据用户的问题需求，还要根据最新的新闻报道和博客报道。Naver 不仅提供网络信息，还提供来自每个垂直搜索的相关信息，针对每个垂直搜索问题单独显示。例如，输入“大学”进行搜索时，在页面上显示来自字典、知识iN、知识百科、图片等垂直搜索引擎的“大学”结果。与 Naver 不同的是，Google、Yahoo!、Bing、百度等显示 Web 搜索和垂直搜索的混合结果。Google、Yahoo、Bing 等的聚合搜索。

　　从上面可以看出，聚合搜索结果的展示方式有两种：一种是分别展示每个垂直搜索；另一种是将其与 Web 搜索结果混合显示。

　　有报道称，这两种显示搜索结果的方式对用户点击影响不大。但是，以混合形式显示时，无论垂直搜索如何，顶部搜索结果更容易被点击，因此垂直搜索结果插入的位置很重要。

　　也就是说，当混合显示网络搜索结果和垂直搜索结果时，最好优先考虑被认为重要的垂直搜索结果。

　　一、“聚合搜索”技术

　　为了实现聚合搜索，重要的是在输入到Web搜索引擎的问题中混入了什么样的垂直搜索搜索结果。因此，下面重点介绍垂直搜索选择方法及其评价方法。

　　1.垂直搜索的选择方法。垂直搜索的选择判断使用三个要素，即问题、垂直搜索语料库和问题日志。聚合搜索时，要么使用其中一个元素选择垂直搜索，要么使用逻辑回归组合多个元素选择垂直搜索。

　　(1）question。使用question选择垂直搜索的方法是用问题是否收录特定的关键词作为判断材料。具体在Ad中指定垂直搜索名称和相关“图片” Hoc net.",movie"",product"",shopping"等词，以及地名，旅游地名等，使用关键词作为垂直搜索的选择。例如，当搜索“数码相机购物”问题，使用“购物”为关键词，以购物垂直搜索为选择对象，搜索“大雁塔”问题时，“塔”为关键词并选择图像垂直搜索作为对象。

　　(2）垂直搜索语料。使用垂直搜索语料选择垂直搜索的方法是将输入到Web搜索中的问题同时输入到垂直搜索中，并选择与该问题匹配的更多垂直搜索结果。因为该方法的特点是将所有输入到Web搜索中的问题都发送到垂直搜索中，因此计算成本比较大。简化索引对每个垂直搜索都是唯一的，用于简化索引。该索引是从完整索引中摘录出来的。

　　但有时也经常出现在多个垂直搜索中。在这种情况下，可以选择多个垂直搜索来搜索所有。

　　2.汇总搜索评论。为了在聚合搜索中实现更好的信息聚合，需要熟悉聚合搜索的评价方法。

　　这只是基于问题的评估；后一种方法是基于评估的。每次垂直搜索的搜索结果就是对对象的评价。② 提问是否有意。这种评价有两种观点，一种是有意的，即提前告知评价者问题背后的意图进行评价；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。后一种方法是基于评估的。每次垂直搜索的搜索结果就是对对象的评价。② 提问是否有意。这种评价有两种观点，一种是有意的，即提前告知评价者问题背后的意图进行评价；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。后一种方法是基于评估的。每次垂直搜索的搜索结果就是对对象的评价。② 提问是否有意。这种评价有两种观点，一种是有意的，即提前告知评价者问题背后的意图进行评价；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。每次垂直搜索的搜索结果就是对对象的评价。② 提问是否有意。这种评价有两种观点，一种是有意的，即提前告知评价者问题背后的意图进行评价；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。每次垂直搜索的搜索结果就是对对象的评价。② 提问是否有意。这种评价有两种观点，一种是有意的，即提前告知评价者问题背后的意图进行评价；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。一种是有意的，即提前告知评估者问题背后的意图进行评估；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。一种是有意的，即提前告知评估者问题背后的意图进行评估；另一种是无意图，即不告诉评估者问题背后的意图，让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。让评估者思考问题背后的意图，然后进行评估。前一种评估方法被信息检索领域的竞赛会议TREC和NTCIR采用。目前，在信息检索的评价中被广泛使用。但是，聚合搜索评价没有统一的评价方法。

　　(2）不同评价方式对评价的影响。图卢兹大学Kopliku等人调查了不同评价方式对评价的影响。本次调查使用视频、图片、新闻、地图、Wiki、商品、A&Q , 词典 8 个垂直搜索的目标是使用 2007 年 TREC 会议上使用的 300 个问题，33 名评估者参与了评估。

　　从调查结果来看，评估人员根据所看到的实际搜索结果，做出了更准确、更全面的判断。以视频垂直搜索为例，仅从题目来看，12%的题目适合视频垂直搜索。但是，阅读搜索结果再判断，24%的问题适合视频垂直搜索。二是告知评估者问题背后意图的评估和不告知评估者的评估，表明在说出问题背后意图时的评估是有限且不灵活的。比如问题是“海南岛”，则告知搜索意图是要知道海南岛的地理位置，给出正确解释的垂直搜索是地图和维基。但是，在不公开搜索意图的情况下，可以从图像垂直搜索和*敏*感*词*垂直搜索中得到正确的解释。可以看出，在不公开搜索意图的情况下，评价者的视野更广，使用正确解释的垂直搜索类型也增加了。

　　（3）搜索结果的多样性。图卢兹大学的 Kopliku 等人也对聚合搜索结果的多样性进行了调查。调查显示，19% 的问题只适合网页搜索，16% 的问题只适合网页搜索。 %，80%以上的问题适合垂直搜索，65%的问题适合多个垂直搜索。进一步，最适合垂直搜索的问题适合多个垂直搜索，50 %的问题适合网页搜索，23%的问题适合Wiki，10%的问题适合Q&A，6%的问题适合*敏*感*词*。结论是：垂直搜索不能有多样化的搜索结果；如果执行聚合搜索，垂直搜索无法实现的多样性。

　　二、聚合搜索的主题和未来

　　近年来聚合搜索的研究越来越火爆，涉及的话题也是多方面的。其中，作为新的方向性研究，有新闻搜索的选择方法和用户属性推断的应用。

　　1.新闻搜索选项。为了将不断变化的信息源混合到聚合搜索中，用户必须知道“你现在在寻找什么？” Yahoo! 的 Diaz 提出了一种有效聚合新闻搜索结果的方法。比如输入问题“Yahoo!”，以关于Yahoo!的事件开头，不是搜索导航的问题，而是搜索新闻事件的问题，这种情况下无法用2.1方法告知选择新闻搜索。

　　迪亚兹提出了“问题是突然发生的吗？”的问题。“带有这个问题的新闻搜索中的头条新闻故事是几分钟前登录的新故事吗？” 作为基准。进一步地，从聚合后的新闻搜索结果的点击率，动态补充是否继续聚合。与迪亚兹的方法类似，微软也想出了一种方法来选择新闻搜索以获取最新的新闻报道。此方法是使用关键词选择最近 7 天内出现在新闻报道和博客文章中的新闻搜索。

　　雅虎的迪亚兹进一步建议，应该选择推特的微博报道，而不是新闻报道和博客报道。假设描述微博的 URL 是最新的新闻和网页，则 URL 上的文章内容排名靠前，以表明其重要性。具体来说，在 Twitter 上进行了实验，将推文数、转推数、URL 上报告的关注者数等各种信息输入到学习器中，并提取有用的 URL。这些可以用作选择新闻搜索的指标。

　　2.用户属性推断的应用。如果能够推断出网络搜索用户的专业性，就可以实*敏*感*词*融专家、医学专家还是法律专家的方法。具体按照输入到Web搜索的问题长度、问题中技术术语的内容程度、一次搜索提出的问题数、访问网页数、会话时间等进行分类。有实验报告称，当再现率为50%时，计算机专家的判断准确率可以达到80%。在复制率为50%时，其他三类专家的准确率低于60%。如果提高判断专家的准确性，可以作为选择垂直搜索的元素。

　　参考

　　[1]Liu,N.;Yan,J.;ChenZ.Aprobabilistic model based approach for blendedsearch,Proceedings of 18th International World Wide Web Conference.2009.

　　[2] 默多克，五世；Lalmas, M. 聚合搜索 ACM SIGIRForum 研讨会。2008, 42 (2）.

0

2022-03-10

内部信息源与外部信息源搜索引擎优化方法的异同

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内部信息源与外部信息源搜索引擎优化方法的异同( 利用垂直搜索次数的1.56%，Google、Yahoo、Bing)

0 个评论

发起人