基于缓存策略的优化改进方案,意图提高引擎对网络信息和用户需求的自动处理能力

优采云 发布时间: 2021-08-17 18:38

  基于缓存策略的优化改进方案,意图提高引擎对网络信息和用户需求的自动处理能力

  互联网搜索引擎技术指标性能优化策略初探。如何加快搜索引擎的响应速度已经成为一个必要的话题。针对这些问题,作者探讨了基于缓存策略的优化改进方案,旨在提高引擎对网络信息和用户需求的自动处理能力,减轻各检索服务器的负担。 关键词:互联网搜索引擎优化中文库分类号:TP271。 5 文档识别码:A文章 编号:16720534(2007)02(c)00120l 简介 网络搜索引擎(SearchEngine)是基于网络信息的一种自1994年以来迅速增加并逐渐发展起来的技术的出现和发展搜索引擎技术为互联网技术注入了新的活力,也在一定程度上提高了搜索的效率和准确率。以一定的策略采集、发现、理解、提取、整理、处理互联网上的信息,为用户提供搜索服务,从而起到信息导航的作用。 、主题词搜索、分类搜索等特殊信息搜索(企业、姓名、电话黄页等)。

  目前,搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被称为“门户网站”。搜索引擎技术因此成为计算机行业和学术界的研究开发对象。针对这些问题,笔者结合自己的见解,探索了一些优化改进方案,旨在提高引擎对网络信息和用户需求的自动处理能力,减轻各检索服务器的负担,实现之间的资源共享。一般来说,信息。检索系统主要有建库过程和查询过程两部分(图1)。其中,网络爬虫也被称为“搜索者”。互联网沿网络链接访问并保存页面信息,作为搜索信息的来源。这部分由爬虫程序自动完成,一般不分昼夜运行,爬虫采集的信息类型可以是文本文档(如HTML文本、xml文本、正文文本等)、文字处理文档(如word文档、ppt文档)、pdf文档等)、多媒体信息(如地图、图形、图像、音频和视频等)。检索服务器构建索引数据结构,便于对爬虫采集到的网页信息进行快速访问和检索。为了支持高效检索。索引倒排索引(InvertedIndex)一般被设备采用,其核心数据结构是InvertedTable。每个表项记录某个词出现的文档编号序列。

  同时,为了快速定位到要查询的词,索引器还提供了高效的词索引结构。由于索引文档的过程一般在后台完成,索引过程的时间效率不是很高。但是,相应的索引搜索速度要求很高,搜索引擎的有效性很大程度上取决于索引的质量。查询处理也称为“检索器”,分为前台和后台两部分。前台提供用户搜索界面,接收用户查询输入(一般为关键词组合);后台主要包括数据库管理程序和结果检索程序。检索 IZl 有两种类型:对 IZl 的直接用户访问和对 IZl 的 API 访问。其中,直接面向用户的界面可以支持用户的查询输入,显示查询结果,一些搜索引擎还提供了用户反馈机制。此外,大多数使用的搜索引擎都添加了结果排名(RanMng)功能模块以改善搜索结果。 Google 的成功在于它发明的 PageRank 方法有效地解决了文档相关性问题。当然,它也成功地利用了地理信息,即将与查询词的相对位置最匹配的文档排在了前面。在测试了互联网搜索引擎技术优化的要求和缓冲机制后,我们发现搜索引擎有一天会访问信息检索(搜索引擎)系统的结构。 9400 个独立查询。

  搜索引擎的数据库在一定时间内没有新的记录,所以搜索结果在一定时间内保持相对稳定。例如:百度一般在早上7点更新数据库,后续24小时查询的结果都是完全一样的排序方式。另外,检索服务器一次向接口程序返回一页文件编号。接口程序根据文件编号从索引库中提取每个Object的信息。将其返回给客户端后,它会丢弃所有 0bjects 文件号。查询时,这些丢弃的文件号需要从检索服务器重新计算。可以看出,数据的重新计算和传输不仅造成了资源的极大浪费,而且还延长了用户查询的等待时间。因此,搜索引擎技术存在优化问题。由于内存索引比基于文件的 I/O 快一个数量级,我们使用内存缓冲来优化全文检索。全文搜索的优化是在第一次索引搜索后,不读取所有结果的具体内容,只将所有结果中匹配度最高的前100个结果的ID放入结果集缓存中,返回,这里可以比较数据库检索:如果是10000个数据库检索结果集,数据库必须先获取所有记录内容,然后才能返回应用结果集。所以即使搜索匹配总数很大,结果集占用的内存空间也不会太多。

  对于一般的检索应用,没有那么多结果。前100条已经可以满足90%以上的检索需求。缓冲区建立后,对经常访问的关键词进行预搜索,将关键词和搜索结果放入缓冲区。当用户查询时,首先通过查询缓冲区。如果有相应的结果,则直接返回给用户;否则会通过服务查询查询结果,并通过某种机制更新缓冲区。参考文献 [l] 闫伟民,吴伟民.数据结构(第二版)。清华大学出版社。 [2] 魏星.基于超链接分析和镜像页面处理的Www搜索引擎优化。东南大学出版社,2001。中缓存模型的优化设计。计算机工程与设计, l998 (2). [4] 欧阳六波, 李学勇, 李国辉, 王欣. 专业搜索引擎策略概述. 计算机工程, 2004 (7). [5] iProspect,prospect'SSearchEngine UserAttitudesSurveyResults [DB/OL]., 2005.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线