搜索引擎主题模型优化(关键词搜索引擎;深层网页;垂直搜索中图分类号文献标识码A1)

优采云 发布时间: 2022-03-19 15:03

  搜索引擎主题模型优化(关键词搜索引擎;深层网页;垂直搜索中图分类号文献标识码A1)

  《互联网搜索引擎技术发展方向分析与研究》为会员分享,可在线阅读。更多相关《互联网搜索引擎技术发展方向分析与研究(十页珍藏版)》,请在线搜索人人图书馆。

  1/10网络搜索引擎技术发展方向分析与研究网络搜索引擎技术发展方向分析与研究摘要随着网络WEB的不断发展,对高速有效的信息检索系统的需求越来越大并且更加紧迫。本文分析了网络检索的核心技术搜索引擎,找出了影响其检索效果的技术瓶颈。在综合考虑当前搜索引擎发展趋势的基础上,指出了未来网络搜索引擎的发展方向。关键词搜索引擎;深层网页;垂直搜索TP311文档识别码A1简介随着网络技术的发展,网络搜索引擎已经成为一个巨大的全球信息空间和最便捷的信息检索工具。现在互联网上有很多搜索引擎,比较有名的有ALTAVISTA、YAHOO、百度、新浪、天网等。但是,目前搜索索引所收录的WEB页面大多为表面页面。据研究,WEB中的深层页面1DEEPWEB,如需要权限进入的页面、对网络数据库的查询以及调用的返回页面、图片、音频、视频等多媒体文档,以及各种文档网络上的格式、软件等大约是可见 WEB 页面大小的 400 到 500 倍。因此,如何找到这些深层网页成为现代网络搜索引擎发展的一个重要问题。2/10 以下是CNNIC' 2016年网民使用互联网产品的比例。从以上数据可以看出,如今的网民对搜索引擎的依赖程度越来越高。可以说,互联网完全离不开搜索,搜索引擎在其地位越来越高的同时,其技术要求也越来越高,不仅收录的信息量更大,而且爬取和查询处理的速度也必须提高进度才能改善其用户体验。

  正因为如此,许多WEB信息检索系统应运而生,可以为用户提供信息检索服务。最著名的有GOOGLE、YAHOO、ALTAVISTA、INFOSEEK等。供网民使用互联网产品的快速有效的WEB信息检索系统的出现,使数字图书馆、电子商务、远程教育等领域展现出广阔的前景。然而,在使用过程中,随着互联网的飞速发展,网络技术的不断变革,以及新的网络服务的推出,人们逐渐发现并意识到了它的局限性和不足。所以,网络搜索引擎技术的发展方向已成为计算机技术与信息与图书馆信息检索技术研究的热点。2 搜索引擎技术分析 搜索引擎SEARCHENGINE是随着WEB信息量的迅速增加而逐渐发展起来的一种技术。它是为解决“信息跋涉”3/10 问题而发明的一项技术。搜索引擎利用一定的策略采集和发现互联网上的信息,对信息进行理解、提取、组织和处理,为用户提供检索服务,从而达到信息导航的目的。各个搜索引擎的具体实现不尽相同,但一般包括ROBOT、分析器3、索引器、检索器和用户界面五个基本部分。搜索引擎的技术分析主要从这几个方面入手。搜索者的功能是漫游互联网,发现和采集信息。它通常是全天候运行的搜索引擎服务器端计算机程序。始终尽快采集网站所有类型的新信息,并定期更新已采集的旧信息,以避免死链接。

  目前有两种采集信息的策略。1 从一组起始 URL 开始,然后按照这些 URL 中的超链接以广度优先、深度优先或启发式循环发现 Internet 上的信息。2、按照域名、IP地址或国家域名划分WEB空间,每个搜索者负责对一个子空间进行穷举搜索。分析器通过一定的策略,对搜索者从互联网上采集和发现的信息进行理解、提取、组织和处理,为用户提供检索服务,从而达到信息导航的目的。根据信息采集方式和服务提供方式的不同,搜索引擎系统可以分为三类:目录搜索引擎、机器人搜索引擎和元搜索引擎。索引器的作用是从搜索器搜索到的信息中提取索引项,建立表示文档的索引表,生成文档库。索引项 4/10 客观索引项有两种:客观索引项和内容索引项,与文档的语义内容无关,如作者姓名、URL、更新时间、代码、长度、链接人气等;内容索引项用于反映文档内容,如关键词及其权重、词组、词等。内容索引项可分为单索引项和多索引项。单个索引项是英文的一个英文单词,由于单词之间有自然的分隔符,所以比较容易提取;对于中文等连续书写语言,必须进行分词。检索器根据用户的查询需求,快速检测索引库中的文档,评估文档与查询需求的相关性,按照一定的规则对输出结果进行排序,反馈给用户。

  检索器常用的信息检索模型有四种:集合论模型、代数模型、概率模型和混合模型。用户界面的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。主要目的是为了方便用户使用搜索引擎,以高效、多途径的方式从搜索引擎获取有效及时的信息。用户界面的设计和实现采用人机交互的理论和方法,充分适应人类的思维习惯。3 搜索引擎的技术瓶颈 面对网络发展的新技术和新形势,搜索引擎的难点主要集中在搜索器和分析器的技术上,包括以下几点< @1)是否支持并发数据爬取,如果要并发,保证所有采集器都能配合采集,不会出现重复采集。2)要解决采集数据5/10的加权,只需要采集一个网站更新数据。3)对于如何采集需要COOKIE数据的网页的问题,部分网站需要通过COOKIE数据登录网站。4)已解决自动身份验证问题以及一些网站密集访问请求将被拒绝技术处理。5)解决FLASH、JS、视频等内容采集技术。目前,搜索引擎仍无法详细抓取上述内容,并且只能根据内容的文字描述来判断内容的性质。6)存储大量数据也是一个难点。据说GOOGLE的存储是自研架构,不使用任何数据库。因为数据库的查询效率还是有一定损失的,可以采用数据块的方式,然后分布式的Schema连接列表。

  7)内容管理系统cms的出现满足了人们不用懂技术就可以自己创建、发布和更新网站的要求,可惜它对搜索引擎真的很友好但是很少。cms该系统将使 SEO 优化站点内各个页面的标题和其他元标记变得更加困难。8)提高信息抓取的数量和速度。互联网是一个动态的内容网络,每天都有无数的页面被更新和创建。如果搜索引擎想要向用户展示互联网上的最新信息,就必须不断地抓取互联网上最近更新的内容。9)确定用户意图和智能开发,实现用户意图和智能开发。4 搜索引擎技术指标的制定 搜索引擎评价指标5 直接关系到参与系统的最终评价。不合理的指标会导致系统评价不合理。因此,标准化的6/10评估会议对评估指标的选择都是非常谨慎的。早期常用的评价指标包括查准率、查全率、F1值等,其含义如下:查全率系统检索到的相关文档数/相关文档总数准确率数系统检索到的相关文档数/系统返回的文档总数是显而易见的,召回率是考察系统找到完整答案的能力,而准确率则是考察系统找到正确答案的能力。两者相辅相成,从两个不同的方面更全面地反映系统性能。F1 值是一个结合了准确率和召回率的指标。考虑到在某些情况下不同系统的准确率和召回率有高有低,论文联盟不方便直接比较,可以用F1值对系统性能进行更直观的排名。F1 值是一个结合了准确率和召回率的指标。考虑到在某些情况下不同系统的准确率和召回率有高有低,论文联盟不方便直接比较,可以用F1值对系统性能进行更直观的排名。F1 值是一个结合了准确率和召回率的指标。考虑到在某些情况下不同系统的准确率和召回率有高有低,论文联盟不方便直接比较,可以用F1值对系统性能进行更直观的排名。

  随着测试集规模的扩大和人们对评价结果理解的加深,更准确地反映系统性能的新评价指标逐渐出现,包括平均准确率。单个主题的 MAP 是检索到每个相关文档后的准确率的平均值。一组主题的 MAP 是每个主题的 MAP 的平均值。MAP 是一个单值指标,反映了系统在所有相关文档上的性能。RPRECISION 单个主题的 RPRECISION 是检索 R 文档的准确度。其中 R 是测试集中与主题相关的文档的数量。主题集合的 RPRECISION 是每个主题的 RPRECISION 的平均值。P104、 P20P10 是系统针对该主题返回的前 10 个结果的准确率。考虑到用户在查看搜索引擎结果时,7/10往往希望在首页找到自己需要的信息,所以设置了这样一个拟人化的指标,P10往往能在真实应用环境中有效体现系统。性能如下图。搜索引擎的发展方向掌握了搜索引擎的规律,进而触及网站发展的命脉。未来搜索引擎的未来发展方向是什么?据研究,未来的搜索引擎将主要向以下几个方向发展。1 自然语言检索 7 个方向,自然语言理解是计算机科学中一个引人入胜且具有挑战性的话题。

  基于自然语言理解技术的新一代搜索引擎,我们称之为智能搜索引擎。因为它将信息检索从目前的关键词层次提升到知识或概念层次,具有一定的知识理解和处理能力,可以实现分词技术、同义词技术、概念搜索、词组识别和机器翻译技术等。因此,这种搜索引擎具有信息服务智能化、人性化的特点,可以让网民使用自然语言检索信息,为他们提供更加便捷、准确的搜索服务。2P2P检索6个方向,P2P是PEERTOPEER的缩写,意思是对等网络。它在加强网络上人与人之间的交流、文件的交换以及8/10分布的计算方*敏*感*词*有很大的前景。长期以来,人们习惯的互联网是以服务器为中心的,人们向服务器发送请求,然后浏览服务器响应的信息。P2P 所涉及的技术是使联网的计算机能够交换数据,但数据存储在每台计算机上,而不是存储在既昂贵又易受攻击的服务器上。网络成员可以自由搜索、更新、回答和传输网络数据库中的数据。所有分享他们认为最有价值的东西都会大大增加互联网上信息的价值。3 多媒体搜索方向,多媒体搜索引擎,随着宽带技术的发展,未来的互联网是多媒体数据时代。开发能够搜索图像、声音、图片和电影的搜索引擎是一个新的方向。目前,一家瑞典公司已经开发并推出了一款动态、健全的多媒体搜索引擎,名为“第五代搜索引擎”。

  图像和视频将很快取代文字成为互联网上的主要信息。4个垂直搜索和8个方向。垂直搜索引擎往往集中在某个行业领域。通过采集整理行业主要网站信息,统一平台提供搜索服务。技术上,由于采用了类似于GOOGLE、百度等主流搜索引擎的搜索技术,在信息抽取和个性化搜索方面甚至具有优势。因此,垂直搜索引擎不仅具有信息全面、搜索速度快的优势,而且在信息抽取和个性化搜索方面也具有优势。往往具有更了解行业、更贴近用户、查询更专业等诸多优势,更准确的结果,因此可以在短时间内迅速聚集相当数量的行业用户。9/10 户。这使得垂直搜索成为近年来互联网创业的热点。6 结束语 作为在线信息获取的重要工具,搜索引擎一直受到高度重视。无论是互联网搜索巨头GOOGLE和YAHOO,还是国内的百度和搜狐,以及新兴的搜狗和易搜,每一个搜索引擎的推出都引起了不小的关注。谁去得早,谁做得好,谁就有第一个机会。这条规则不仅对搜索引擎有效。参考文献 1UGMBBCGOOGLEBOT 开始检索 网站

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线