*敏*感*词*的搜索引擎优化论文(1.概述(searchengine)的搜索引擎结构及其分类框架)
优采云 发布时间: 2021-10-25 20:02*敏*感*词*的搜索引擎优化论文(1.概述(searchengine)的搜索引擎结构及其分类框架)
1.概述
搜索引擎是指按照一定的策略,使用特定的计算机程序,在互联网上采集信息,对信息进行组织和处理后,为用户提供搜索服务的系统。
2.搜索引擎分类
根据信息采集和服务提供方式的不同,搜索引擎系统可以分为三类:全文搜索引擎、搜索索引/目录和元搜索引擎)。
2.1个全文搜索引擎
全文搜索引擎是名副其实的搜索引擎。国外的代表是谷歌,国内著名的搜索引擎是百度。他们从网上提取每个网站(主要是网页文本)的信息,建立数据库,可以检索出符合用户查询条件的记录,并按照一定的顺序返回结果。
2.2 目录索引搜索引擎
目录搜索引擎手动或*敏*感*词*采集信息。编辑查看信息后,人工形成信息汇总,将信息放入预定的分类框内。目录索引虽然有搜索功能,但严格来说并不是真正的搜索引擎,它只是一个按目录分类的网站链接列表。用户无需搜索关键词(Keywords),仅依靠分类目录就可以找到自己需要的信息。最具代表性的目录索引是大名鼎鼎的雅虎。其他著名的还有开放目录计划(DMOZ)、LookSmart、About等,国内搜狐、新浪、网易搜索也属于这一类。
2.3 元搜索引擎
这类搜索引擎没有自己的数据,而是同时向多个搜索引擎提交用户的查询请求,返回的结果经过反复排除、重新排序等,作为自己的结果返回给用户。这种类型的搜索引擎结合了来自多个搜索引擎的信息,并增加了新的排序和信息过滤,可以大大提高用户满意度。
3. 全文搜索引擎
一个典型的搜索引擎结构一般由以下三个模块组成:信息采集模块(Crawler)、索引模块(Indexer)、查询模块(Searcher)。
爬虫:采集 来自网络的网页数据。
索引器:分析 Crawler采集 数据以生成索引。
Searcher:接受查询请求,通过一定的查询算法获取查询结果,返回给用户。
3.1 使用网络蜘蛛从互联网上抓取网页
全文搜索引擎的“机器人”或“蜘蛛”是一种互联网上的软件,其核心目的是获取互联网上的信息。它通常被定义为“一种在互联网上检索文件,自动跟踪文件的超文本结构,并循环检索所有引用文件的软件”。机器人使用主页上的超文本链接遍历WWW,通过Url 引用从一个HTML 文档爬行到另一个HTML 文档。在线机器人采集的信息可用于多种用途,如索引、HIML文件合法性验证、URL链接点的验证和确认、监控和获取更新信息、站点镜像等。
机器人在互联网上爬行,所以需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的 URL 隐藏在文档中,需要对其进行分析和提取 URL。机器人通常用于生成索引数据库。所有 WWW 搜索程序都有以下工作步骤:
(1)机器人从起始网址列表中取出网址,从网上读取其指向的内容;
(2) 从每个文档中提取某些信息(如关键字)放入索引数据库;
(3) 从文档中提取指向其他文档的 URL 并添加到 URL 列表中;
(4)重复以上3步,直到没有新的URL出现或超出一些限制(时间或磁盘空间);
(5)索引库添加搜索界面,发布给在线用户或提供给用户搜索。
搜索算法一般有两种基本的搜索策略,深度优先和广度优先。机器人采用URL列表访问方式确定搜索策略:先进先出,形成广度优先搜索。当初始列表收录大量WWW服务器地址时,广度优先搜索会产生很好的初始结果,但很难深入服务器;先进后出,形成深度优先搜索,可以产生更好的文档分布,更容易找到文档的结构,即找到最大的交叉引用。也可以使用遍历搜索的方法,就是直接改变32位IP地址,在整个互联网上一一搜索。
大众营销搜索引擎优化是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术、动态索引技术、检索技术、自动分类技术、机器学习等人工智能技术。
3.2 创建索引表
索引技术是搜索引擎的核心技术之一。搜索引擎必须对采集到的信息进行排序、分类和索引以生成索引库,而中文搜索引擎的核心是分词技术。分词技术利用一定的规则和词库对句子中的词进行分词,为自动索引做准备。目前的索引大多采用Non-clustered方式。这项技术与对语言和文本的理解有很大关系。具体要点如下:
(1)存储语法库,配合词汇库将句子中的词汇分开;
(2) 存储词汇,要同时存储词汇使用频率和常用搭配方法;
(3) 词汇量大,应该分到不同的专业库,方便专业文档的处理;
(4)对于不能分词的句子,把每个词当作一个词。
索引器生成从 关键词 到 URL 的关系索引表。索引表一般采用某种形式的倒排,即通过索引项搜索对应的URL。索引表还应该记录索引项在文档中的位置,以便搜索者可以计算出索引项之间的相邻关系或密切关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能使用不同的索引方法。例如,Webcrawler 使用全文搜索技术对网页中的每个词进行索引;Lycos 仅对页面名称、标题和最重要的 100 个注释词等选择性词进行索引;Infoseek 提供概念检索和短语检索,支持和、布尔运算,如 or、near 和 not。搜索引擎的索引方式大致可以分为三类:自动索引、手动索引和用户登录。
3.3 询价
搜索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行搜索。同时完成页面与搜索的相关性评估,对输出结果进行排序,实现一定的用户相关性反馈机制。
通常有数百个通过搜索引擎获得的搜索结果。为了获取有用的信息,一种常用的方法是根据网页的重要性或相关性对网页进行排名,并按相关性进行排序。这里的相关性是指文档中出*敏*感*词*额较高时,文档被认为更相关。可见性也是常用的指标之一。网页的可见度是指网页入口处超链接的数量。可见性方法基于这样一种思想,即一个网页被其他网页引用的次数越多,该网页的价值就越大。尤其是网页引用的网页越重要,该网页就越重要。结果处理技术可以概括为:
(1)顺序是按频次排列的。一般来说,如果一个页面收录更多的关键词,搜索目标的相关性应该会更好。这是一个非常合理的解决方案。
(2)按页面访问度排序。这种方法是搜索引擎记录自己搜索的页面被访问的频率。人们访问频率较高的页面应该收录更多的信息,或者有其他吸引人的优点。这个方案适合一般搜索用户,而且由于大部分搜索引擎都不是专业用户,所以这个方案也比较适合一般搜索引擎。
(3)二次搜索进一步净化(相对于flne)结果,根据一定条件优化搜索结果,可以选择类别和相关词进行二次搜索等。
由于当前的搜索引擎还不智能,除非您知道要查找的文档的标题,否则第一个结果可能不是“最佳”结果。因此,虽然有些文档相关性高,但不一定是用户最需要的文档。