搜索引擎编写起来是不是难度特别大?是的
优采云 发布时间: 2021-07-28 04:02搜索引擎编写起来是不是难度特别大?是的
小众搜索引擎从业者路过并回答。
写搜索引擎是不是特别难?
是的。据说难度不及互联网级数据集的实时处理。爬虫很简单,路过就不提了。这里的指标是高门槛。虽然有各种开源方案(lucene、elastic等),但在遇到互联网规模的数据时,都不是很有用。大数据规模下的索引和实时检索(不过2000ms以内)可以说是核心技术之一。只有突破了这个技术门槛,才能真正独立开发出搜索引擎。
这就是为什么你可能经常看到自称是利基搜索引擎,最后显示的是所谓的“聚合”搜索结果。结果都是百度搜狗360bing出的,因为他们自己解决不了最难的索引和检索。 ,都是找别人的结果,这其实很可能违反了相应搜索引擎的用户协议。对于之前大家都觉得很神奇的dogedoge,大部分结果都是对谷歌搜索结果的再处理(增删改查等),而我个人并没有掌握搜索引擎的核心技术。 (不知道有没有圈内朋友知道我被迫下线的事情。我只知道我喝了茶。)
总而言之,世界上只有少数有用的搜索引擎。在中国,百度拥有非常好的技术。这东西确实需要更深的技术积累。
我经常看到这样一种说法,搜索引擎搜索到的东西只占互联网所有内容的一小部分,如果我发现了通常在搜索引擎上看不到的东西怎么办
搜索引擎的爬虫也必须符合一定的规范。 网站主不允许爬的东西(参考:robots.txt)不应该爬,更别说收录进搜索引擎了,更别说现在很多内容在各种app中,爬虫的爬行行为更难,更容易被发现,可能触犯法律(参考:*敏*感*词*第285条、第286条等)。这些内容方本身不想被搜索引擎收录搜索到,所以在使用搜索引擎的时候自然是看不到这些内容的。
目前这个趋势有一个变化,就是微信搜索。除了腾讯微信系统中的内容,他们还有收录网页内容,并且在每个小程序中也可以遵循一定的规则收录内容。另外,字节跳动的头条搜索后可能会有一些动作。
(利益相关者:团队参与)