大数据的发展,导致了Web信息量的不断增加
优采云 发布时间: 2021-05-12 05:48大数据的发展,导致了Web信息量的不断增加
大数据的发展导致Web信息量的不断增加。如何更准确地获取信息已成为互联网用户越来越关注的焦点,传统的搜索引擎技术一直难以满足用户的特定需求。因此,作者提出了一种基于多主体的搜索引擎技术,该技术可以使用户在特定领域中进行搜索,并且可以在短时间内获得与用户密切相关的结果,从而有效地提高了搜索质量和搜索准确性。
1个搜索引擎1. 1个基本概念
在1990年代初期,麦吉尔大学计算机科学学院的三名学生开发了Archie,该系统可以使用文件名查找文件。受该系统启发,内华达州计算机服务中心于1993年开发了Gopher搜索工具Veronica,搜索引擎[1,2]开始开发。搜索引擎是指根据某种策略对采集到的信息进行组织和处理,并将处理后的结果存储在索引数据库中,以供用户检索。搜索引擎的出现从根本上改变了人们获取信息的方式,并允许用户查找信息。更方便。
1. 2个主要类别
搜索引擎(Search Engine)主要包括垂直搜索引擎,全文搜索引擎,目录搜索引擎和元搜索引擎。
(1)垂直搜索引擎与常规搜索引擎不同。它是针对特定领域的搜索引擎系统。主要用于购物搜索((sshhooppppiinngg sseeaarrcchh)),机票搜索(air sseeaarrcchh),旅行搜索搜索搜索((ttoouurriissmm sseeaarrcchh))等。
(2)全文搜索引擎使用索引程序为文章文章中的每个单词创建索引,并指示单词的位置和出现次数。用户还可以在搜索[ k13的任何部分],无论是标题还是正文。最常见的全文搜索引擎是百度和Google。
(3)目录搜索引擎手动或*敏*感*词*采集信息,然后手动形成摘要以供用户查询。由于人类的智能,搜索引擎可以检索到更准确的信息,但是检索到的信息量却很大。确实相对较小。雅虎是一个成熟的目录搜索引擎。
(4)元搜索引擎使用统一的搜索界面将用户发送的查询请求转发给主要搜索引擎网站,然后汇总反馈结果并将其返回给用户。360综合搜索是一个常用的元搜索引擎。
1. 3工作原理
实际上,搜索引擎并不像想象的那样聪明。他们无法真正理解用户的需求。他们所做的只是机械地匹配用户输入的索引关键字。基本过程如图1所示。
图1搜索引擎流程图
网络搜索是指从Internet爬网网页。搜索的关键在于如何有效地采集用户所需的信息。搜索引擎技术中信息采集的主要方法是手动采集和自动采集。在前者中,专门人员负责跟踪和链接相关的网站和页面,并根据某些规则建立索引数据库;而自动采集使用的是蜘蛛程序,可以自动从Internet采集网页,有时也称为“机器人”程序。链接到网页。当然,这种爬取并不是没有目的的,它必须遵循一些命令或文件的内容。通过从一个网站到另一个网站进行爬网以跟踪和访问更多网页,当然,在蜘蛛爬网过程中新遇到的网站和更新的网站将立即写入索引中。在数据库中搜索。当然,这是目前最流行的信息采集方式。
预处理是对上一篇文章中Spider爬网的页面进行分类并建立索引数据库的过程。
查询处理通过某种排序算法对搜索到的相关网页进行排序,然后以某种格式将结果返回给用户。
2基于多agent 2. 1 Agent技术的搜索引擎设计
“代理人”一词是由麻省理工学院的明斯基在《思维社会》一书中提出的。他认为Agent是一个实体,并且它是一种存在于一定环境中的Smart实体。实体可以与环境中的其他实体进行协商以获得问题的解决方案。这些具有社交互动和智能的实体很快被应用到计算机领域,特别是在基于网络的分布式系统中,Agent表现出明显的有效性。由于代理的多样性,很难为其定制统一的结构。下面,仅给出一个简单的结构模型,该模型具有适合该系统的感知和交互功能,其结构如图2所示。
图2 Agent的五层概念结构
2. 2基于多主体的搜索引擎研究背景
随着Internet的发展以及大数据的出现和发展,给人们的搜索行为带来了极大的不便。如何从具有广泛资源的互联网上自动搜索必要的信息已经成为搜索用户关注的问题。作者的设计是在传统的搜索引擎中增加一种多代理机制,通过用户与多代理之间的相互协作,可以使搜索结果更加智能,并倾向于改变用户的兴趣。
2. 3基于多主体搜索引擎的主要技术2. 3. 1多主体模块的设计
客户端多主体的主要功能是优化用户的兴趣模型。它主要由[3,4,5,6]三个部分组成:用户兴趣分析代理,搜索行为分析代理和兴趣处理代理。
⑴用户兴趣分析代理,当通过用户输入的关键词初始化搜索引擎以汇总用户兴趣时,它使用诸如机器学习和智能推理之类的人工智能技术。
⑵搜索行为分析代理通过跟踪和链接用户访问过的文档来猜测用户的需求,并使用启发式规则来确定用户在搜索过程中对文档的兴趣程度。
(3)兴趣处理代理将(1)和(2))的处理结果提交到云服务器,然后服务器做出最终决定退还与用户兴趣密切相关的文档。
2. 3. 2服务器端智能机器人的结构
基于代理的智能机器人主要负责访问相应的万维网文档。机器人[7]的结构如图3所示。
图3智能机器人的结构
文档访问代理的功能相对简单。它链接来自访问代理引擎的URL,并通过HTTP协议访问相应的WWW文档。路径选择代理负责提取该代理访问的万维网文档中的链接,以选择即将到来的返回给用户的浏览路径;访问控制代理的主要功能是控制文档访问代理机制对WWW资源的访问,以防止服务器和网络被阻塞。
2. 4基于多代理的搜索引擎结构
基于多代理的搜索引擎系统由一个或多个检索服务代理组成,每个用户使用一个用户代理和几个索引来访问该代理。它们由多主体模块,页面分析和处理主体,智能机器人等组成。基本的引擎结构如图44所示。
图4多Agent搜索引擎结构
3效果分析
为了验证基于多主体搜索引擎系统模型的设计的合理性,构建了一个实验仿真平台。该实验所需的硬件包括:Intel G550 CPU,4GB内存;软件环境:Microsoft Windows XP操作系统,使用Microsoft Visual Studio 2010编程来实现基于多代理的搜索策略。与原创搜索策略相比,用户在同一环境中进行搜索时,您将获得更多更接近您的兴趣的搜索结果。用户对不同搜索策略的满意程度如图55所示。
图5不同搜索策略的满意度比较
4结论
本文提出了一种基于多智能体的搜索引擎模型,并详细描述了该模型的实现原理。在未来的工作中,我们将继续研究,以使搜索引擎能够根据访问成本和访问速度等因素进一步索引Internet上的Web [8,9,10]。当然,作者将进一步改进该模型,使其更易于扩展。