采集内容插入词库(倒排列表还要保存下列信息保留的信息变成了二元组)
所以倒排列表还应该保存以下信息
保留信息变成一个二元组,如第16个字“网站”的(5:1),5代表出现的文档编号,1代表出现的次数,即,有了这个信息,如果某个词在文档中出现频率更高(英文缩写TF),搜索引擎就可以把它排在最前面,推送给你
除了频率,还有位置。例如,“Google”是第1号文档中出现过一次的词,位置为第一个,表示为
可能你已经记不起有哪些页面了,请再查一下比较
<p>这样搜索引擎就可以根据你的关键词在倒排列表中找到收录这个关键词的文档集合,然后根据