seo深度解析:全面挖掘搜索引擎优化的核心秘密(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)

优采云 发布时间: 2022-02-21 20:06

  seo深度解析:全面挖掘搜索引擎优化的核心秘密(搜索引擎工作原理一共包括三个过程:建立索引—呈现排名)

  搜索引擎的工作原理包括三个过程:网页搜索、信息预处理和索引。

  细分分为:爬取-爬取-处理爬取信息-构建索引-渲染排名

  一:爬行

  爬取目的:创建待爬取列表

  谷歌爬虫:ddos 百度爬虫:蜘蛛

  1、发现:

  新的 网站

  被动等待:设置Robots.txt文件,放到服务器上等待爬虫自行爬取。(谷歌几个星期,百度一个月到几个月。)

  主动吸引爬虫:用链接写软文,花钱买高质量高权重的网站,使用高权重的博客,在高质量的论坛发外链。

  

  新内容

  可以放首页,否则尽量放顶栏(总结:争取高权重位置)

  横幅图像不如幻灯片,幻灯片不如文字。(总结:文字优先,图片写alt属性)2、爬虫分析:

  查看:网站日志分析。可以在日志文件中查看站长工具:查看爬取频率。太高会导致服务器崩溃,修复一下:网站访问突然变成

  先去现场网站收录看看有没有处罚

  分析日志爬虫,记录IP(蜘蛛,用户)

  统计代码问题

  3、爬取策略:

  深度优先:一层列到底层(100万-1000万页) 广度优先:对等列单独采集(100万页) 混合:两者混合使用(50-1亿页)

  4、爬行者爬行障碍:

  txt 文件设置不正确。服务器本身(动态IP频繁出现,服务器不稳定),网址太长,搜索引擎爬虫懒得直接抓取。爬行动物陷阱

  二:抢

  网页本身必须符合 W3C 标准

  页眉信息:状态码:200(正常访问)、404(死链接)、301(永久重定向)、302(临时重定向谨慎)、403(禁止访问)、5xx(数据库问题) 代码:建议在国外使用utf-8. gb2312打开是乱码 TDK关键词: Title: 尽可能让爬虫进入某个页面时看到我们的主要内容。

  长度:33个汉字文章,25个汉字足够两个英文字符算一个字符

  位置:关键词位置前置

  次数:不要重复太多(列可以强调关键词,最重要的放在前面)

  可读性:考虑用户体验

  原创性:蜘蛛喜欢新鲜事物

  关键字:5-7个首页,5-6个一级栏目,4-5个二级栏目,3-4个列表页,2-3个主题。Deion:(列必须写在 关键词 周围)

  效果:提高点击率

  密度:3-8%

  长度:80个汉字

  原创性别:有益收录

  可读性:用户体验注意事项

  号召性用语:活动、促销等的页面。

  3、公共部门:

  搜索引擎不会爬取重复的部分(爬虫更喜欢新鲜的原创东西,重复的内容不利于爬取)

  4、导航:主导航、副导航、左导航、SEO导航(标签页)、面包屑导航(不要用JS)、

  5、广告:

  横幅图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文本适合爬虫爬行。

  6、文字:

  关键词:次数合适,密度适中3-8%,位置靠前(金华站长工具可以查到) 标签:唯一性,整页第一重要. 包括关键词、关键词尽量放在前面标签:不唯一,次要。其他属性可以添加到属性中:只能用于

  ,意在告诉蜘蛛图片的解释属性:在链接中加入描述性文字,可以为用户提供更清晰的含义锚文本:(都注意相关性)锚文本必须是相关相关的

  三:对抓取结果进行处理(预处理)

  爬取后,爬虫将其压缩成数据包返回给数据库

  相关性:由于百度算法的上下文分析+语义分析,网站不会出现不相关的内容,否则搜索引擎也会省略权限:各种奖项、网络评价、申请百度客服增加信任度。

  注:权限不足造成的影响:同一篇文章文章,由于信任级别,可能被文章转载发表,但落后于他人网站。

  去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,同一个关键词的不同链接也不应该出现在同一个页面上。

  四:创建索引

  搜索引擎索引是反向构建的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线