直观:采集器的自动识别算法，可以根据当前的搜索内容（词）

优采云发布时间: 2022-10-29 17:21

　　采集器的自动识别算法，可以根据当前的搜索内容（词），推算出可能匹配到的需要抓取的网页，一般就是看前缀后缀能不能构成搜索关键词，并取搜索的时间点，若出现在时间点上，就可以认为可以抓取，将抓取到的网页推送给用户。搜狗的搜索引擎识别的都是前缀后缀结合搜索时间点的结果。

　　对于普通人来说是是很多人遇到的在搜索结果列表里搜索某个关键词不出来或者打开网页源代码中的某个关键词搜索提示框缺少相关搜索词或者部分网页出现了a标签而抓取的网页有部分跟a标签是一样的。像这些情况大多数源代码中没有存储相关搜索词，或者用户要求搜索和前缀后缀匹配不到导致无法抓取到某个网页。主要原因是部分人并不关心搜索结果，更多的还是源代码中存储某些关键词相关而且用户又想找到所需要的结果，如果不想用户去猜测搜索结果所处位置那就必须把不关键词的网页都筛选掉。这就不是目前国内主流搜索引擎，百度和谷歌们需要考虑的问题了。

　　新浪还算是最有良心的搜索引擎了，淘宝和百度联合后就太恶心人了，一个盗版片子，有的还是日本片，连标题都改了，

　　感觉最主要的原因就是搜狗的搜索引擎机制。

　　除了误伤并且实力打脸的新浪微博，其他的搜索引擎都不能100%准确理解人搜索的需求，虽然百度应该会被骂到狗血喷头。但是实际上根据第一次搜索并且学习的记忆，还是能更加正确的理解用户的需求，所以在某些情况下还是能做得到很好的解决需求的。至于百度最近的乱象，个人认为还是新浪微博影响的，搜狗也是受不了新浪集团的报复，与新浪微博发生冲突导致的。

0

2022-10-29

采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

直观:采集器的自动识别算法，可以根据当前的搜索内容（词）

0 个评论

发起人

AI时代内容工厂

直观:采集器的自动识别算法，可以根据当前的搜索内容（词）

0 个评论

发起人

相关问题