搜索引擎优化高级编程:php版(网盘搜索引擎盘搜索的技术搜索模式地址是怎样的?)

优采云 发布时间: 2021-09-26 08:05

  搜索引擎优化高级编程:php版(网盘搜索引擎盘搜索的技术搜索模式地址是怎样的?)

  网上磁盘搜索引擎很多,可以分为两类:

  1.搜索引擎索引

  2. 爬虫存储索引

  第一种:搜索引擎索引

  这种索引方式是目前比较主流的方式。它依靠百度和谷歌建立索引链接。用户搜索时,在线搜索引擎会抓取谷歌和百度有收录的页面,然后反馈给用户。

  第二种:爬虫入仓索引

  使用爬虫(python或其他语言)对网盘站点的资源进行爬取,将资源统一存储在数据库中,通过分词将搜索结果展示给用户。

  这两种方法各有优缺点。第一个是间接搜索。如果搜索引擎没有收录网站资源,那么就没有办法搜索。第二种是直接搜索,资源准确率高,但实时更新速度不如第一种。

  下面进入正题,聊聊尘盘搜索的技术搜索模​​式

  地址:

  

  很早以前就想搭建一个蓝作云云搜索引擎,但是之前时间不够,终于有时间开发了。

  蓝作云的优势:速度无限,速度快。

  蓝作云缺点:非会员上传限制100M

  缺点导致资源不会太大,视频内容必须很小,但其他类型的资源,如应用程序、音乐、小说,必须非常丰富。

  由于蓝作云的机器人在其网页上限制了百度的收录,所以使用百度高级搜索语法没有搜索结果,但谷歌可以搜索。

  没想过用搜索引擎做引擎,只是抱着严谨的态度去搜索。

  废话太多,下面进入正题。

  技术架构:

  1. 前端使用Vue+Element UI,前端本身并不复杂,所以不使用webpack进行打包

  2.后端采用PHP+Apache+Mysql的经典后端组合

  3.分词引擎采用中文开源xunsearch中文。当然,中国人最懂中文。

  4. 爬虫使用基于python的Scrapy分布式进行资源爬取

  整个系统的复杂性在于分词,因为数据库存储了资源后,由于数据量巨大,如果使用类似的数据库查询语句,效率和吞吐量肯定不会满足。这时候分词的重要性就显得非常重要了。将数据库存储标题的字段进行分段,然后建立全文索引链,大大提高了搜索速度和吞吐量。

  虽然mysql目前支持中文全文索引,但是效率和分词结果都非常不理想。找了几个分词引擎,最后选择了xunsearch。百万级的搜索速度只有几毫秒。有需要的朋友可以去百度搜搜了解一下。接下来,使用起来并不复杂,文档有点乱,还需要仔细分析几遍。

  爬虫依旧是千百年不变的蟒蛇。使用西瓜皮作为爬虫框架,分布式爬虫一共三台服务器。由于蓝邹的各种限制,目前资源存储的速度还是比较理想的。这里有一点需要注意。爬虫和分词不会实时响应。爬取一段时间后,服务器会进行分词处理。资源有一定的滞后性。此延迟时间将在稍后阶段进行优化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线