免费项目:爬网预算
优采云 发布时间: 2022-10-20 16:24免费项目:爬网预算
在今天的 Whiteboard Friday 节目中,Tom 介绍了一个更高级的 google SEO 概念:抓取预算。Google 愿意花在抓取您上的时间是有限度的网站,因此如果您在编制索引时遇到问题,请注意此主题。
单击上面的白板图像以在新选项卡中打开更大的版本!
视频转录
Moz 粉丝星期五快乐,今天的主题是 Crawl Budget。我认为值得一提的是,这是一个更高级的主题,或者主要适用于大型 网站 的主题。我认为即使不是您,当您查看您可能采用的一些策略或您可能采用的一些诊断方法来抓取预算时,您仍然可以从 Google SEO 理论中学到很多东西。
但在谷歌自己的文档中,他们建议如果你每天更新超过一百万页或超过一万页,你应该关心你的抓取预算。我认为这些显然是一个硬性或任意的门槛。我会说,如果您的 网站 无法被索引,并且您的 网站 上的某些页面没有进入您想要的索引,或者您的页面没有足够快地被索引在这些情况下,索引,抓取预算应该是您关注的问题。
什么是抓取预算?
那么实际上什么是抓取预算?抓取预算是 Google 愿意花在抓取给定 网站 上的时间量。虽然看起来谷歌有点无所不能,但他们资源有限,网络庞大。因此,他们必须以某种方式确定优先级并分配一定的时间或资源来获取给定的网站。
现在他们的优先级基于 - 或者他们说他们基于 网站 在用户中的受欢迎程度和内容的新鲜度进行优先级排序,因为 Googlebot 有点渴望新的、从未见过的 URL。
我们不会在此视频中真正讨论如何增加抓取预算。我们将专注于如何充分利用您拥有的抓取预算,这通常是一个更容易拉动的杠杆。
抓取预算问题的原因
那么爬虫预算问题究竟是如何产生的呢?
刻面
现在我认为 网站 上可能导致抓取预算问题的主要问题是方面优先。
所以你可以想象一个电子商务网站,想象我们有一个笔记本电脑页面。我们也许可以按大小过滤。你有一个 15 英寸的屏幕和 16 GB 的 RAM。当我们实际上只有一个页面或一个类别时,可能有很多不同的排列可能导致大量的 URL,因为我们想到了它——笔记本电脑页面。
类似地,这些 URL 然后可以重新排序以创建执行完全相同但必须单独抓取的其他 URL。此外,它们的排序方式可能不同。可能有分页等。因此,您可以让一个类别页面生成大量 URL。
搜索结果页面
其他经常发生的情况是内部站点搜索的搜索结果页面通常是可以的,特别是如果它们是分页的,它们可能会生成许多不同的 URL。
列表页
列表页面。如果您允许用户上传他们自己的列表或内容,那么随着时间的推移,如果您考虑一个工作板或类似 eBay 的东西,那么随着时间的推移,可能会增加很多 URL,并且可能会有很多页面。
修复抓取预算问题
那么,您可以使用哪些工具来解决这些问题并充分利用您的抓取预算?
因此,作为基线,如果我们考虑正常 URL 在 Googlebot 中的行为方式,我们会说,是的,它可以被抓取,是的,它可以被编入索引,是的,它通过了 PageRank。所以像这样的 URL,如果我链接到我的 网站 上的某个地方,然后 Google 会跟踪该链接并索引这些页面,这些页面可能仍然具有顶部导航和站点范围的导航。所以实际上传递到这些页面的链接将是一种循环。当我们通过这么多不同的页面和这么多不同的过滤器链接时,由于稀释,会有一些损失。但最终,我们正在回收它。泄露的 PageRank 没有黑洞损失。
机器人.txt
现在处于相反的极端,您可以采取的最极端的抓取预算解决方案是 robots.txt 文件。
因此,如果您在 robots.txt 中屏蔽了某个页面,则无法抓取该页面。太好了,问题解决了。好吧,不,因为这里有一些妥协。从技术上讲,robots.txt 中被阻止的站点和页面可以被编入索引。您有时会看到某个站点出现或出现在 SERP 中的页面无法显示,因为该页面在 robots.txt 或此类消息中被阻止。
所以从技术上讲,它们可以被索引,但从功能上讲,它们不会为任何东西或至少任何有效的东西排名。所以,是的,嗯,从技术上讲。他们没有通过 PageRank。当我们链接到这样的页面时,我们仍然在传递 PageRank。但如果它在 robots.txt 中被阻止,PageRank 就不会再进一步了。
所以我们创造了一个泄漏和一个黑洞。所以这是一个非常严格的解决方案,尽管它很容易实现。
链接级别nofollow
链接级别的nofollow,所以我的意思是,如果我们将链接放在指向这些的主要笔记本电脑类别页面上,并且我们将nofollow 属性放在这些链接中,则有一些优点和缺点。
我认为一个更好的用例实际上会更多地出现在列表案例中。所以想象一下,如果我们经营一辆二手车 网站,我们有数百万种不同的二手车产品列表。现在我们真的不希望 Google 将时间浪费在这些单独的列表上,这可能取决于我们的 网站 的大小。
但有时名人可能会上传他们的汽车或类似的东西,或者可能是一辆非常稀有的汽车,然后就会开始获得媒体链接。因此,我们不想在 robots.txt 中屏蔽此页面,因为在这种情况下我们会浪费这些外部链接。因此,我们可能会在指向该页面的内部链接上创建我们可能不会在内部遵循的链接。所以这意味着它可以被抓取,但前提是它被发现,并且只有当谷歌以其他方式找到它时,所以通过外部链接或类似的东西。
所以我们在这里有一个中途之家。现在从技术上讲,nofollow 现在是一个提示。根据我的经验,Google 不会抓取仅通过内部 nofollow 链接到的页面。如果它以其他方式找到该页面,显然它仍然会抓取它。但总的来说这可以有效地限制爬取预算,或者我应该说更有效地使用爬取预算。该页面仍然可以被索引。
这就是我们在这个例子中想要实现的。它仍然通过 PageRank。这是我们正在努力实现的另一件事。尽管您仍然使用此 nofollow 链接失去了一些 PageRank。这仍然算作一个链接,因此您会丢失一些 PageRank,否则这些 PageRank 将通过管道传输到该后续链接中。
没有索引,没有关注
Noindex 和 nofollow,因此对于 ecomm 网站 上的此类页面,显然这是一个非常常见的解决方案。
现在,在这种情况下,可以抓取页面。但是一旦谷歌到达那个页面,它会发现它是noindex,随着时间的推移,它会减少抓取它的频率,因为抓取一个noindex页面没有多大意义。同样,我们在这里有一个中途之家。
显然,它不能被索引。没有索引。它不会传递 PageRank。PageRank 仍然传递给这个页面,但是因为它在 head 部分有一个 nofollow,所以它不会传递 PageRank。这不是一个好的解决方案。为了节省爬虫预算,我们不得不在这里做出一些妥协。
没有索引,关注
所以很多人曾经认为,哦,好吧,解决这个问题的方法是使用 noindex follow 作为两者中最好的。因此,您在其中一个页面的顶部放置了一个 noindex 跟随标签,哦,是的,每个人都赢了,因为我们仍然获得相同的爬网增益。我们仍然不索引这个我们不想索引的新重复页面,但是 PageRank 解决方案是固定的。
好吧,几年前,谷歌出来说,“哦,我们自己没有意识到,但实际上随着时间的推移,我们越来越少地抓取这个页面,我们再也看不到链接了,然后它赢了不。” 忘了它。所以他们有点暗示这不再是传递 PageRank 的一种方式,最终它会被视为 noindex 和 nofollow。同样,我们在那里有一个稍微妥协的解决方案。
模型
现在,真正最好的世界可能是常态。使用规范标签,随着时间的推移,它仍然爬行少一点,规范版本,很棒。它仍然没有被索引,标准化的版本,很好,它仍然通过了 PageRank。
所以这看起来很棒。在许多情况下,这似乎是完美的。但这只有在页面足够接近副本时才有效,Google 愿意将其视为副本并尊重规范。如果他们不想将它们视为重复项,那么您可能必须重新使用 noindex。或者如果你认为这个URL实际上没有理由存在,我不知道这个错误的顺序组合是怎么来的,但这似乎毫无意义。
301
我不会再链接到它。但是,如果有些人仍然以某种方式找到该 URL,我们可以使用 301 作为一种经济,它最终会表现得非常好......我会说比 canonical 和 noindex 更好的抓取预算,因为谷歌没有'你甚至没有在极少数情况下必须查看该页面,因为它只是跟随 301。
它将解决我们的索引问题,并将通过 PageRank。但显然,这里的权衡是用户也不能访问这个 URL,所以我们不得不接受它。
实施抓取预算策略
总结所有这些,我们将如何实际使用这些策略?那么,如果您想做一个抓取预算项目,我会推荐哪些活动?
不太直观的是速度。就像我之前说的,Google 会以某种方式分配一定的时间或资源来抓取给定的 网站。所以如果你的 网站 非常快,如果你的服务器响应时间很短,如果你有轻量级的 HTML,它们会在相同的时间内浏览更多的页面。
所以这是违反直觉的解决这个问题的好方法。日志分析,这是一种更传统的方法。通常,您的 网站 上的哪些页面或哪些参数实际上消耗了您所有的爬网预算,这是非常不直观的。大型站点的日志分析通常会产生令人惊讶的结果,因此您可以考虑这一点。然后实际使用其中一些工具。
因此,我们可以对我们认为用户甚至不需要查看的冗余 URL 进行 301 处理。用户确实需要查看的变体,我们可以查看 canonical 或 noindex 标签。但我们可能还希望首先避免链接到它们,这样我们就不会由于稀释或死胡同而对那些标准化或未索引的变体失去某种程度的 PageRank。
Robots.txt 和 nofollow,正如我在经历它时所暗示的那样,这些是您要非常谨慎地使用的策略,因为它们确实会造成这些 PageRank 死胡同。最后,我从 Ollie HG Mason 文章 的博客中获得了一个更新或更有趣的提示,我可能会链接到下面,事实证明,如果您的 网站 上有一个,那么您只能使用站点地图对于新的或最近的网址,您最近更改的网址,然后因为 Googlebot 非常渴望新鲜的内容,就像我说的那样,他们开始大量抓取此站点地图。因此,您可以使用这种策略将抓取预算引导到新的 URL,这样每个人都会获胜。
Googlebot 只想查看新网址。您可能只想让 Googlebot 看到新网址。因此,如果您有一个仅用于此目的的站点地图,那么每个人都会获胜,这可能是一个很好且易于实施的技巧。就这样。希望这个对你有帮助。如果没有,请随时在 Twitter 上告诉我您的提示或挑战。我很想知道其他人如何处理这个话题。
视频转录。
免费提供:定时采集软件-免费定时采集软件大全
定时采集软件,什么采集软件好用?今天给大家分享一款免费好用的采集软件,我为什么要选择这款采集软件!简单易学,通过可视化界面和鼠标点击即可采集数据,用户无需任何技术基础,输入网址,一键提取数据。时序采集详见下图
同时,您还可以关键词文章采集,基于全网高度智能的文本识别算法采集,输入关键词即可采集 内容,不写 采集 规则。详见下图
很多事情一开始都很困难。新 网站 的优化也是如此。时机采集软件 首先,新的网站是一片空白,没有公信力,没有人气。其次,搜索引擎对新的网站 有另一个评估期。在优化新的 网站 时稍有疏忽都可能导致延迟。比如延迟排名等问题。时机采集软件如何优化新站点,使其在没有可信度、知名度和受众的情况下,通过评估期更快地获得更好的结果和排名。我们可以试试这个:
第一步,提交网站或创建外链吸引蜘蛛爬取网站;定时采集软件提交网站可以找到搜索引擎提交,按需提交。此外,您可以在论坛中发布有吸引力的外部链接,并提供更快的信息,并按照以下步骤在提交后的 1-3 天内将其收录在内。
第二步,确定目标关键词;定期采集软件结合你的网站内容找一些关键词(尽量不要太热门的关键词),如果搜索结果是首页,定期采集软件放弃,如果有更多的内部页面,您可以使用关键字。
第三步,根据目标关键词对页面进行布局;为了布局页面,我们需要在常规的采集软件中分析目标关键词的搜索需求,然后根据用户的需求进行页面布局,这样网站拥有良好的用户体验。为了分析关键词的搜索需求,可以从三个方面进行简单的分析:1.搜索下拉框,2.相关搜索,3.首页标题部分出现蓝色关键词页面,直接在搜索引擎中搜索目标关键词,然后关注网站的排名,定期采集软件观察其标题的特点,仔细分析能找到哪些词,并排名相对较高。请等待并判断用户'
第四步,丰富网站内容。当 web 被确定为目标关键词和页面布局的通用框架后,接下来要做的就是丰富网站每个页面,确保网站每个页面都有实质性的内容,并将内容描述在细节。
保持网站更新并建立高质量的外部链接;新站点刚刚启动,软件 采集 的声誉并不高。需要不断的吸引新的内容来吸引蜘蛛访问,建立外部链接方便蜘蛛访问,增加网站的权重。
SEO关键词优化是SEO优化的关键步骤。如果这一步做得不好,时序采集软件整体网站优化会受到很大影响。那么,SEO关键词应该如何优化呢?
1. 关键词 分布
在seo关键词的优化中,这里不提关键词的挖掘。让我们从如何在每个页面上设置关键字开始。网站首页一般选择3~5个关键词,采集软件各版块的其他页面选择2~3个关键词。原则上,网站首页一般会放一些比较难的关键词,而其他栏目会放比较简单的关键词。不过笔者认为,如果是竞争激烈的行业,建议新站选择比较简单的词在首页进行排名,然后在排名后逐渐换成难度更高的核心词。然后 文章 页面,当然选择对长尾关键词进行排名。文章可以针对长尾关键词进行优化。
2.关键词页面布局
在SEO优化中,核心关键词如何在页面上布局是一个非常详细的部分。定时采集软件在文章页面中,出现在前100个单词中的关键词一般具有较高的权重,当然还有句子在段落中出现的频率。除了tdk,尽量在logo周围有一个核心词,有排名优势;在列名中收录核心词;如果有图片,计时采集软件会在alt属性中收录关键字;页面底部的版权信息可以收录关键字;链接到附属链接等。一句话,核心词不要显得密集,否则很容易被搜索引擎视为不利行为。加一句,核心关键词可以拆分。
3.关键词的数量和密度
在seo关键词优化中,页面中关键词的数量不宜过多,次数一定要控制。在核心关键词出现次数合理的基础上,还要注意关键词的密度不能太高。定时采集软件根据站长工具,关键词密度在2%到8%之间。其实我觉得5%左右的控制几乎是一样的。事实上,关键词的密度控制得很好,将关键词的数量保持在合理的范围内。