索引擎在互联网中搜集技术中的优化改进方案
优采云 发布时间: 2021-06-09 05:11索引擎在互联网中搜集技术中的优化改进方案
53 技术信息技术信息科学与技术信息 2007NO。 01 SCIENCE & TECHNOLOGYINFORMATION 1 引言 网络搜索引擎SearchEngin是自1994年以来随着网络信息的快速增长而逐渐发展起来的一项技术。搜索引擎技术的出现和发展为互联网技术注入了新的活力,也在一定程度上提高了搜索的效率和准确性。实际上,搜索引擎指的是一种网站,专门提供互联网上的查询服务。它利用一定的策略来采集和发现互联网上的信息,理解、提取、组织和处理信息,为用户提供搜索服务,从而起到信息导航的目的。用户的查询方式主要有免费词、全文搜索、主题词搜索、分类搜索等特殊信息搜索公司、姓名、电话黄页等,目前搜索引擎提供的导航服务已经成为非常重要的网络服务在互联网上,搜索引擎网站也被誉为“网络门户”。搜索引擎技术因此成为计算机行业和学术界的研究开发对象。针对这些问题,笔者结合自己的见解,讨论了一些优化改进方案,旨在提高引擎对网络信息和用户需求的自动处理能力,同时减轻搜索服务器的负担,实现资源在他们之间分享。
2 检索系统介绍及存在的问题 一般来说,信息检索系统主要有数据库建立过程和查询过程两部分,如图1所示。其中,网络爬虫也被称为“搜索者”,沿着互联网上的网络链接访问和保存页面信息作为信息检索的来源。这部分由爬虫程序自动完成,一般不分昼夜运行。爬虫采集的信息类型可以是HTML文本、XML文本、正文等文本文档,word文档、ppt文档、pdf文档等文字处理文档,地图、图形等多媒体信息、图像、音视频等;检索服务器构建索引数据结构,便于对爬虫采集的网页信息进行快速访问和检索。为了支持高效检索。索引器一般使用倒排索引InvertedIndex,其核心数据结构是倒排表InvertedTable。每个条目记录一个单词出现的文档编号序列。同时,为了快速定位到要查询的词,索引器还提供了高效的词索引结构。由于索引文档的过程一般在后台进行,索引过程的时间效率不是很高。但是,相应的索引搜索速度要求很高,搜索引擎的有效性很大程度上取决于索引的质量。查询处理也称为“检索器”,分为前台和后台两部分。
前台提供用户搜索界面,接收用户查询输入。通常是关键词combined。后端主要包括数据库管理程序和结果检索程序。检索接口有两种:直接用户接口和API接口。其中,直接面向用户的界面可以支持用户查询输入和查询结果展示,部分搜索引擎还提供用户反馈机制。此外,大部分使用的搜索引擎都增加了结果排名Ranking功能模块,以改善搜索结果。 Google 的成功在于其发明的 PageRank 算法,它有效地解决了文档相关性问题。当然,它也成功地利用了地理信息,即将与查询词相对位置最匹配的文档排在第一位。 3、互联网搜索引擎技术优化的需求和缓冲机制 经过测试,我们发现搜索引擎一天收到7万条查询,这7万条查询集中在9400条独立查询中。搜索引擎的数据库在一段时间内没有新的记录,所以搜索结果在一定时间内保持相对稳定。比如百度一般在早上7点更新数据库,接下来24小时的查询结果都是完全一样的排序方式。另外,检索服务器一次向接口程序返回一页文件编号。接口程序根据文件编号从索引数据库中提取每个Object的信息。将其返回给客户端后,它会丢弃所有对象文件编号。查询时,这些丢弃的文件号需要到检索服务器重新计算才能获得。
可以看出,数据的重新计算和传输不仅造成了资源的极大浪费,而且还延长了用户查询的等待时间。因此,搜索引擎技术存在优化问题。由于内存索引比基于文件的 I/O 快一个数量级,因此我们使用内存缓冲来优化全文检索。全文搜索的优化是在第一次索引搜索后,不读取所有结果的具体内容,只将所有结果中匹配度最高的前100个结果的ID放入结果集缓存和返回,这里可以比较数据库检索:如果是1000个条目的数据库检索结果集,数据库在返回应用结果集之前必须获取所有记录内容。所以即使搜索匹配总数很大,结果集占用的内存空间也不会很多。对于一般的检索应用,没有那么多结果。前100条已经可以满足90%以上的检索需求。缓冲区建立后,对经常访问的关键词进行预搜索,将关键词和搜索结果放入缓冲区。当用户查询时,首先通过查询缓冲区。如果有相应的结果,则直接返回给用户。否则使用查询服务查询结果,通过一定的机制更新缓冲区。参考文献 [1] 闫为民,吴为民.数据结构第二版。清华大学出版社。 [2] 魏星.基于超链接分析和镜像页面处理的www搜索引擎优化。东南大学出版社2001. [3] 王东阳传侯. WWW中缓存模型的优化设计。计算机工程与设计 1982. [4] 欧阳六波,李学勇,李国辉,王欣。专业搜索引擎策略概述。计算机工程 20047. [5] iProspectproct 的 SearchEngine UserAttitidesSurveyResults[DB/OL]。 iProspect。 com/2005。互联网搜索引擎技术性能优化策略初探(南京航空航天大学图书馆,江苏 2100016) 摘要:搜索引擎技术的出现和发展为互联网技术注入了新的活力,检索效率是衡量其性能的非常重要的指标。指标。
如何加快搜索引擎的响应速度已经成为一个必要的话题。针对这些问题,笔者探讨了基于缓存策略的优化改进方案,旨在提高引擎对网络信息和用户需求的自动处理能力,减轻各检索服务器的负担。 关键词:互联网搜索引擎优化中文图书馆分类号:TP271.5 文献识别码:A 文章编号:1 672-37791200701a-0053-01 图1 信息检索(搜索引擎)系统结构