抓取网页数据违法吗(完整内容请戳如何让搜索引擎爱上我们的网站结构足够合理)
优采云 发布时间: 2022-03-31 05:15抓取网页数据违法吗(完整内容请戳如何让搜索引擎爱上我们的网站结构足够合理)
上一章讲了如何优化我们的网站结构,包括如何操作TDK,不滥用H1标签等,如何进行关键词挖矿,如何使用工具帮助我们用更少的精力做更多的现场优化,导航优化技术以及内容应该如何编写更符合蜘蛛的胃口。全文请戳如何让搜索引擎爱上我们网站
大部分 SEO 工作都在网站上。只有网站做好,关键词分布合理,结构足够合理,搜索引擎才能尽可能多的抓取我们的内容;收录的页面越多,用户找到我们的机会就越大。
如何让我们的 网站 结构足够合理?除上述几点外,还有以下几个方面。接下来,我将按照我们从建站到运营的顺序,一一展开。
▌机器人
这是 网站 和搜索引擎之间的协议。机器人会直接告诉搜索引擎我是否欢迎你,也是我们给搜索引擎的一把钥匙。
机器人必须首先放在 网站 根目录中。当爬虫进入我们的网站时,它首先要查找的就是这个文件。当该文件存在时,会根据该文件指定的范围进行爬取。如果禁止所有蜘蛛爬行行为,它会直接走开。抓住。
因此,我们可以利用这个robots特性来隐藏我们不想发布的目录结构,比如后台管理等敏感目录。当然,你也可以利用这个功能来引流,让搜索引擎不必把精力浪费在无用的目录或页面上,只爬我们想让他们爬的页面。
▌面包屑导航设计,小功能大不同
这是一个很容易被忽视的技能,尤其是对于新手站长。我们一般认为导航上有首页或者logo,为什么会多出一行文字呢?面包屑具有以下功能:
1、标识位置以便于访问
面包屑可以告诉我们用户当前在哪里。它还可以让用户返回上一个目录。同时,蜘蛛喜欢面包屑导航,因为蜘蛛在爬取文章时,可以很方便的回到上一级目录,进入上级目录继续爬取。
2、添加内部链接关键词
我们也可以使用这个函数为我们的父目录指定 关键词。我们的目录关键词一般有2-3个,而网站导航只能给这个目录一个关键词点,当我们通过不同的方式使第二个关键词指向父目录时子页面,相当于添加了一个内部链接。
3、王牌辅助,无敌
面包屑是一种可访问性功能,可以告诉用户他们在哪里,但不能完全替代主导航。
4、层次结构没有浏览历史
面包屑导航应该表达层次关系,而不是浏览历史。看到很多网站使用动态生成的面包屑,主要是记录用户的浏览历史,这是错误的做法,用户浏览太多,这里会很复杂,逻辑不清楚。
面包屑可以告诉用户他们当前处于哪个级别以及父母是谁,让用户的思路非常清晰。如果您对当前栏目中的其他内容更感兴趣,进入其他页面非常方便。
不要把链接地址放在面包屑导航的最后一层,因为当前页面已经在这个地址了,放链接是没有意义的。
5、清除分隔符
分隔符清晰,逻辑清晰。比较常见的做法是直角括号,比如上面苹果官网的设计,加上斜线“/”或者空格。这可以清楚地表达递减的关系。
6、最后一层可以作为标题存在
比如方舟博客,在切换栏目的时候,页眉的文字不变,但是栏目地址发生了变化,所以我们把最后一层改成一个H1标签,告诉搜索引擎这个页面的标题就是这个。
▌图片应用,让不可能成为可能
搜索引擎无法解析图片的代码,所以搜索引擎看到图片是空白的,不知道图片里面是什么;现在图片的识别技术在进步,相信总有一天会实现图片内容的识别。
鉴于此,我们在做网站开发的时候需要注意以下几点:
▌sitemap,给蜘蛛一张地图
蜘蛛根据链接地址抓取页面,但是每个网站的权重不同,蜘蛛在这个网站中抓取页面的深度和停留时间不一样,这会导致一些页面级别更深,不会被蜘蛛捕获。我们需要一种方法来直接告诉蜘蛛我的页面在哪里以及地址是什么?
这是sitemap,我们把我们网页的地址放到这个文件里,这样搜索引擎蜘蛛可以更好的抓取我们的页面。
这个文件可以告诉搜索引擎哪些页面是重要的,哪些是次要的,哪些页面应该被爬取,哪些页面更新频繁等等。目前有sitemap、txt格式、xml格式和sitemap索引格式三种格式。
txt格式适合小网站,链接不多,可以一一放链接地址。
XML格式适用于中小型网站,主要收录标题和链接地址。它也是最常用的格式。但是由于文件大小限制和蜘蛛爬取的流畅性,如果文章太多,文件会太大。
这里我们需要使用sitemap索引的形式进行文件分割,将一个大的sitemap分成多个小的,然后将子sitemap文件的地址放到主sitemap中。
如何正确使用站点地图网站 地图?
▌内链,让蜘蛛自由爬行
影响关键词排名的不仅仅是好内容,还有链接。
比如我们知道长沙有臭豆腐,而且这种臭豆腐的厂家也很多。怎么意识到一提到臭豆腐就想到了一个牌子?当大家说臭豆腐好吃的时候,久而久之,一想到臭豆腐,就会想到这个地方;链接也是如此。当有很多词指向你时,你可以排名更高。
链接指向内部链接,我们称之为内部链接,以及站外链接,即外部链接。
内部链接是我们网站中 关键词 的指向。比如在易观方舟官网,我们将产品介绍中的“用户行为”一词全部指向“用户行为分析”页面。当爬虫来找我们网站,当它看到这么多链接指向一个页面,那么这个词就是这个页面的目标关键词,当用户在搜索引擎中搜索这个词时,它将被优先显示此页面。
内链是我们做SEO的一个重要方向,因为外链资源不确定性很多,质量也参差不齐,而内链完全由我们自己主导。
每个页面都有一个目标关键词,当页面A有一个页面B的目标关键词时,它应该指向页面B上的单词。一个页面最多可以有5个内部链接,因为我们有考虑用户体验,一个页面就是所有的链接,这会让访问者认为这是一个广告站,因为我们会加粗或者改变颜色来突出这个关键词,比如关键词 @关键词太多了,人很恶心,所以要注意内链词的密度,实测后5%是推荐的内链密度。
如何采集内部链接关键词?我们通过方舟渠道分析挖掘最近的关键词分布,采集这些词作为我们的页面关键词。方舟比百度统计的关键词集合更有价值。我们可以看到这个词来自哪个搜索引擎,跳出率是多少,留存情况如何等。我们还可以深入分析这组用户,了解这些用户接下来做了什么,他们为什么流失.
在我们的网页上做内部链接时,我们也应该注意。比如这个页面是关于用户行为分析的,那么我们把这个词链接到产品页面,相关性非常高。这是一个高质量的内部链接,相关性不强。链接,效果会打折。
如果有很多网站文章,我们可以开发一个内部链接关键词库来存储我们的关键词和链接地址到数据库中;当页面出现单词时,它会自动替换目标页面上的链接地址,这将为我们节省大量编辑文章的时间。
▌分页技巧
分页是为了让较长的内容在部分中显示。比如分类列表页的内容很多,我们可以把它分成10个内容页。这使用户体验良好且易于阅读。
而这个分页怎么处理,让搜索引擎也有很好的体验呢?我们在爬取页面时需要了解搜索引擎的规则,也就是当他们看到一个页面链接时,就钻进去。想想看,如果我们在一个分类页面上显示20个页面的链接,就会多出20个条目,这样爬虫在抓取文章的时候,不会因为文章的深度问题而减少@> 抓取卷。
我们看到现在很多网站喜欢点击加载更多,然后加载10条内容出来。其实这种方式对搜索引擎很不友好,因为有些数据是js请求的,搜索引擎不会触发这样的链接。这也会影响我们的 收录 音量。
这两个页面哪个更受搜索引擎欢迎?
▌聚合营销思维,事半功倍
什么是标签聚合?我们先说一下聚合的含义。聚合是指对同一类型的内容进行聚合。主要目的是方便用户阅读,方便访问者的存在,也会被搜索引擎识别。
网站 由页面组成。页面分为两类,单页和聚合页。聚合页面将单个页面按照一定的规则进行聚合,生成一个新的页面。比如内容分类就是聚合页面。
现在可以生成一个新的页面,我们可以通过适当的操作对我们现有的内容进行重新洗牌,重新组合和聚合成一个新的页面,这可以帮助我们更轻松地增加收录页面。
标签其实就是我们内容的一个关键词,目前的文章主要阐述几点。一个 文章 可能有多个标签。我们为不同的标签生成一个单独的标签页,其中的文章就是同一个标签的文章。
这个标签页是我们的聚合页,它是自动生成的,节省了我们的人力,增加了我们的页数。
需要注意的是,标签页并不是建站初期需要用到的技能。是我们的内容达到一定程度后才能觉醒的技能,因为标签页不适合内容较少的网站,内容很少聚合。这会导致页面之间的内容重复度非常高,导致页面没有新鲜感,影响搜索引擎的抓取;如果有大量的重复内容网站,可能会降低蜘蛛出现的频率。
再来看看旅游类网站,比如携程,其中一个文章可以聚合多个类,比如自驾游文章,也可以按地区聚合,行程时间、价格等。同一个主题也有不同的主题页面聚合,比如住宿类型的酒店聚合页面,国家类型的酒店聚合页面等等。
分类聚合
专题聚合
每个标签或类别对应一个页面,每个标签代表不同的含义,既方便了用户浏览,也增加了收录的搜索量。
至此,我们讲了网站建站初期应注意的站内优化知识点、结构优化、关键词挖掘、导航技巧、内容技巧、机器人、面包屑导航、图像技巧、分页、站点地图、内部链接关键词 和聚合页面。
只有前期打好基础,才能更好地进行后期的持续优化。蜘蛛对我们网站的好感度会不断增加。我们应该根据上述注意事项仔细打磨我们的网站。
让搜索引擎喜欢我们的网站,够了收录就够了,让更多人进入网站了解网站,很多新手站长因为缺乏数据支持好难找网站现在有什么问题?结果,网站一直处于爬虫不想看到的境地。