阿里巴巴网站的搜索引擎优化案例(建立索引数据库由分析索引系统程序的程序的原理 )

优采云 发布时间: 2021-12-24 21:17

  阿里巴巴网站的搜索引擎优化案例(建立索引数据库由分析索引系统程序的程序的原理

)

  搜索引擎的原理可以看成三个步骤:从互联网上抓取网页→建立索引库→在索引库中搜索和排序。

  从互联网上抓取网页

  使用Spider系统程序,可以自动从互联网上采集网页,自动上网,沿着任意一个网页中的所有网址爬到其他网页,重复这个过程,把已经爬回来的网页全部采集回来。

  索引数据库

  分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页所在的URL、编码类型、页面内容中收录的关键词、关键词位置,生成时间、大小、网页的链接关系等),根据一定的相关性算法进行大量复杂的计算,每个网页与页面内容的相关性(或重要性)并且获取超链接中的每一个关键词,然后利用这些关联信息构建一个web索引数据库。

  在索引数据库中搜索和排序

  当用户输入关键词进行搜索时,搜索系统程序会从网页索引数据库中查找所有与关键词匹配的相关网页。因为这个关键词的所有相关网页的相关度已经计算好了,所以只需要根据已有的相关度值进行排序即可。相关性越高,排名越高。

  最后,页面生成系统将搜索结果的链接地址和页面的内容摘要进行整理并返回给用户。

  搜索引擎的蜘蛛一般需要定期重新访问所有网页(每个搜索引擎的周期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率),并更新网页索引数据库,反映网页内容的更新,添加新的网页信息,去除死链接,根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化就会反映在用户的查询结果中。

  虽然只有一个互联网,但是各个搜索引擎的能力和偏好不同,所以抓取的网页也不同,排序算法也不同。大型搜索引擎的数据库存储着互联网上数亿到数十亿的网页索引,数据量达到数千GB甚至数万GB。但即使最大的搜索引擎建立了超过20亿个网页的索引数据库,也只能占到互联网上普通网页的不到30%。不同搜索引擎之间网页数据的重叠率一般在70%以下。我们使用不同搜索引擎的重要原因是它们可以搜索不同的内容。

  您应该牢记这个概念:搜索引擎只能找到存储在其 Web 索引数据库中的内容。你也应该有这个概念:如果搜索引擎的web索引数据库里应该有,而你没有找到,那是你的能力问题。学习搜索技巧可以大大提高你的搜索能力。

  -------------------------------------------------- -----------------

  搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,

  顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。

  网络爬虫总是要从某个起点开始爬,这个起点叫做*敏*感*词*,你可以告诉它,也可以到一些网址列表网站上获取

网页抓取/数据抽取/信息提取软件工具包MetaSeeker是一套完整的解决方案,里面有定题网络爬虫,也叫聚焦网络爬虫,

  这种爬虫抓取下来一个页面后并不抽取所有的超链接,而是只找主题相关的链接,笼统的说就是爬行的范围是受控的。

  网络爬虫实现代码主要集中在MetaSeeker工具包中的DataScraper工具。可以从 gooseeker网站下载下来看

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线