搜索引擎

优采云 发布时间: 2020-08-25 10:22

  搜索引擎

  5)正向索引

  6)倒排索引

  7)链接关系估算

  8)特殊文件处理

  当用户在搜索框进行搜索时,搜索引擎并没有在网路上实时的搜索用户的恳求,而是在检索索引数据库,搜索引擎定期更新其索引库。

  首先搜索引擎查看搜索索引中的每一个搜索关键词,可以得到收录那些关键词的所有网页列表,这会得到特别庞大的数据。

  每一种搜索引擎都有自己的算法,基于它对用户需求的猜想来排序网页。搜索引擎的排序算法可能会检测,是否你的搜索词收录在页面的标题中,它可能会用同义词匹配与你的搜索关键词语义相仿的查询结果。生成初步的查询结果,对查询结果集按权威性和PageRank进行排序,重复的查询结果被剔除。

  对查询结果进行过滤处理。最终返回给浏览器端的用户一个人性化的、布局良好的、查询结果和广告泾渭分明的有机查询结果页面。

  使用机器学习更好的理解成语,它使算法不仅仅是搜索页面上的单个字母或词组,而是理解成语的潜在意义。

  如果能晓得用户查找的关键词(query(查询)切词后)都出现在什么页面中,那么用户检索的处理过程即可以想像为收录了query(查询)中切词后不同部份的页面集合求交的过程,而检索即弄成了页面名称之间的比较、求交。这样,在微秒内以亿为单位的检索成为了可能。这就是一般所说的倒排索引及求交检索的过程。

  页面剖析的过程实际上是将原创页面的不同部份进行辨识并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等,分词的过程实际上包括了切词动词同义词转换同义词替换等等,以对某页面title动词为例,得到的将是这样的数据:term文本、termid(标识)、词类、词性等等,之前的打算工作完成后,接下来即是构建倒排索引,形成{termàdoc}(文档集合),

  索引系统在构建倒排索引的最后还须要有一个入库写库的过程,而为了提升效率这个过程还须要将全部term以及偏移量保存在文件背部,并且对数据进行压缩.

  (1) Query串切词动词正式用户的查询词进行动词,对以后的查询做打算,以“10号线轻轨故障”为例,可能的动词如下:

  10 0x123abc

  号 0x13445d

  线 0x234d

  地铁 0x145cf

  故障 0x354df

  (2)查出含每位term的文档集合,即找出待选集合,如下:

  10 1 2 3 4 7 9……

  号 2 5 8 9 10 11……

  (3)求交,上述求交,文档2和文档9可能是我们须要找的,整个求交过程实际上关系着整个系统的性能,这上面收录了使用缓存等等手段进行性能优化;

  (4)各种过滤,举例可能收录过滤掉死链、重复数据、*敏*感*词*、垃圾结果;

  (5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。用户在搜索框输入关键词后,排名程序调用索引库数据,计算排行显示给用户,排名过程与用户直接互动的

  倒排索引通常表示为一个关键词,然后是它的频率(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息),它相当于为互联网上几千亿页网页做了一个索引,好比一本书的目录、标签通常。

  图片搜索:

  1.缩小规格。将图片缩小到8x8的规格,总共64个象素。这一步的作用是清除图片的细节,只保留结构、明暗等基本信息,摒弃不同规格、比例带来的图片差别。

  2.简化色调。将缩小后的图片,转为64级灰度。也就是说,所有象素点总共只有64种颜色。

  3.计算平均值。计算所有64个象素的灰度平均值。

  4.比较象素的灰度。将每位象素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0。

  5.计算哈希值。将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。组合的顺序并不重要,只要保证所有图片都采用同样顺序就行了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线