搜索引擎进行信息检索的优化策略方法(搜索引擎进行信息检索的优化策略方法除了提高效率以外)

优采云 发布时间: 2021-09-10 23:01

  搜索引擎进行信息检索的优化策略方法(搜索引擎进行信息检索的优化策略方法除了提高效率以外)

  搜索引擎进行信息检索的优化策略方法除了提高搜索引擎蜘蛛爬行抓取网页的效率以外,在搜索引擎蜘蛛追踪网页效率方面也是有很多规则存在的。爬虫对重复的爬取等工作保持顺序不做处理;如果每次爬取都请求同一个站点,那么蜘蛛只需要花费很小的代价就可以每次获取相同的页面,使得蜘蛛爬行速度变得更快;而网页重复爬取时,只要将页面链接进行分隔就可以使得每次爬取的页面不再重复;当重复爬取同一页面链接时,对重复的链接进行分隔会使得页面链接进行一次分隔;如果对重复的链接进行分隔,原来那些链接就可以被忽略掉,这样可以节省搜索引擎蜘蛛爬行时间,延长爬行时间的有效控制。

  谢邀!一个最佳的检索引擎爬虫是分阶段来工作的。第一阶段通过访问数据库来获取最终的结果页面。通过初步爬取数据库中的文本和摘要来确定分词词典。对于长文本,我们需要建立单词词典,对于短文本我们需要建立句子词典。第二阶段对于文本中出现的特定词,引擎爬虫获取爬取了特定的链接来爬取相关的文本。我们通过用户特定的关键词搜索目标内容,引擎从那些字爬取相关的内容。

  用户对搜索内容进行排序。第三阶段对于所有的文本内容,从头到尾遍历整个网页。确定语义分析模型,找到相似度高的页面,并在此页面上爬取相关的链接。语义分析模型应用于链接过滤。详细可以参考徐国峰《搜索引擎开发实战》第二章。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线