搜索引擎优化原理(PHP搜索引擎蜘蛛(spider)的作用及获取方法详解!)
优采云 发布时间: 2021-12-09 08:06搜索引擎优化原理(PHP搜索引擎蜘蛛(spider)的作用及获取方法详解!)
一、 搜索引擎蜘蛛
搜索引擎蜘蛛(spider)可以简称为蜘蛛。它最初的意思是搜索引擎机器人(robot)。之所以叫蜘蛛,是将互联网比作蜘蛛网,机器人比作在互联网上爬行的蜘蛛,被搜索引擎自动捕捉。获取网页的过程。
搜索引擎蜘蛛的作用:这些搜索引擎蜘蛛的抓取会自动将网页添加到搜索引擎的数据库中,搜索引擎蜘蛛会自动判断网页的质量并根据网页的质量决定是否进行抓取。既定程序。
搜索引擎蜘蛛名称:以下是目前国内比较知名的搜索引擎名称。搜索引擎蜘蛛有很多,但由于知名度不高,我就不一一列举了。
查看搜索引擎蜘蛛的访问记录,需要访问日志文件网站查看。具体获取方式请咨询服务器提供商。如果你想得到搜索引擎蜘蛛的支持,希望他们每天都在爬网爬行,那么你需要不断更新原创文章,定期交换友情链接。如果您不希望某个搜索引擎的蜘蛛抓取您的网页,您可以通过设置robots.txt 禁用抓取。
二、搜索引擎原理
对于搜索引擎来说,需要解决的技术问题分为蜘蛛程序、分类索引、词库、排序算法因素、数据库索引与优化、数据库结构-蜘蛛。
蜘蛛似乎可以用C或PHP来实现。百度的蜘蛛大部分是用C做的,C还可以支持多个数据库连接接口,C比PHP效率更高,C可以更好的控制底层。
C虽然这么好,但我还是想用PHP来做,又要节省更多的时间,不能再学C了。如果以后需要高效率,就需要用C,那就用C来做,数据库不变,MYSQL可以用C连接。
PHP 有优点也有缺点。作为蜘蛛,问题应该不大。最大的问题是它可能很慢。
1、获取网页
爬取网页时,可能会出现爬取顺序问题,如何记录爬取不成功或超时,下次爬取什么时候更新。搜索引擎的数据库一开始是新的,没有任何网址,需要添加大量网址。这里可以使用for循环语句根据英文字母自动循环。当然,网站的构造不仅是英文,还有数字,只能手动输入。如果还在爬行,估计会漏掉不少。抓取的代码需要分析编码类型是utf-8还是gb231。2.我的搜索引擎只想抓取简体中文。如果爬取超时,会被记录下来,下次大约十天后爬取。
2、创建索引
索引的建立是一个非常困难的问题。百度和谷歌可以使用自己的服务器群来构建分布式服务器。我没有那么多服务器。所以我想改变方法。创建静态页面。之前我只知道0.在百度和谷歌上输入一个比较生僻的词需要2秒左右,而一个普通词只需要0. 1秒。而且,第二次重复输入一个单词所需的查询时间要少得多。这主要是指数的影响。
如果把索引放在内存中,读取速度会很OK。我只有一台服务器,就算只把5万个常用查询词的索引放进去,估计也有点累了。一个page至少有20K,50000个page就是20K*50=1G。这只是 50,000 字的第一页。如果用户要分页查询,内存肯定是不够的。如果只将第一页放入内存,用户翻页查询,速度问题是无法解决的。所以我将完全静止。模拟一次50000字的查询,然后生成一个静态页面。所有单词的第一页存储在内存中,随后的页面存储在硬盘中。如果能把页面放到内存中,这个问题就解决了。
3、词库
汉字有几千个,常用汉字至少有3000个。估计有20,000个常用词。如何添加这个词库?使用什么格式存储?CSV 文件或数据库或文本文件?想着找金山词霸的词库文件直接复制试试。这个方法还没有成功。
4、 排序算法
所有影响排序的算法都应该放在一个表中,然后分为固定算法,即网站本身的因素,和可变算法,即用户输入的词或因变化而变化的因素到不同的时间和季节。固定算法放在一个表中,对每个网站计算总分。部分变更算法是之前生成的,一部分是在用户输入之后计算出来的。
5、数据库索引
数据库的索引没有很好的解决办法。一个表情索引不能太多,多会影响速度。六. 数据库的结构。这很关键。估计在网站前端界面出来之前,数据库结构一定要定下来。也需要留一个接口供以后升级,比如增加算法因子,或者为了优化查询语句而改变字段等等。
参考推荐:
搜索引擎
搜索引擎蜘蛛
透视搜索引擎原理