百度搜索引擎优化白皮书(4.1百度搜索资源平台(原百度站长站长平台)介绍)

优采云 发布时间: 2022-02-20 14:23

  百度搜索引擎优化白皮书(4.1百度搜索资源平台(原百度站长站长平台)介绍)

  4.1 百度搜索资源平台(原百度站长平台)简介

  百度搜索资源平台(原百度站长平台)是全球最大的中国互联网管理者、移动开发者和企业家管理搜索流量的官方平台。提供帮助搜索引擎数据查询和优化的工具,SEO建议,以及适应多种服务的能力。

  百度搜索资源平台域名地址:

  4.2 查询工具

  4.2.1 索引工具

  网站的索引量是指用户在百度搜索网站上可以搜索到的链接总数。百度蜘蛛通过爬取发现网站内容,进行页面分析,为有价值的内容建立索引库,最终让搜索用户搜索到网站内容。

  网站被百度蜘蛛抓取后,经​​过一系列的计算,可以建入索引库,有机会接触搜索用户。因此,索引量一直是站长们关注的焦点,但是对于索引量工具存在一些误区。以下是正确答案:

  √ 索引量不等于网站流量:索引库分为多级,只有进入上级索引库,才能有更多机会接触搜索用户;进入下级图书馆的机会微乎其微。因此,指数总量的整体上升或下降并不代表流量有任何变化;

  √ 索引量变化不直接影响流量变化:当流量发生巨大变化时,索引量数据可以作为排查的渠道之一,但不是排查的唯一渠道,索引量的变化不直接影响流量变化;

  √ 指数成交量波动,指数成交量波动10%(经验值),甚至更多,可能属于正常现象。只要流量没有太大变化,就不要紧张。

  4.2.2 流量和关键词工具

  流量和 关键词 工具提供网站在百度搜索结果中流行的 关键词 展示和点击量数据,并通过监控 关键词 的性能来帮助 网站 优化、流量和关键词工具可以全面帮助站长了解网站在百度搜索引擎中的表现,确定页面和网站的优化方向,为网站分析提供运营决策依据。

  关于流量和 关键词 工具,还有一点需要强调。如果站长需要在反馈中心提交网站的异常流量,请以本工具的数据和数据截图作为证据,以方便工作人员分析网站的问题。

  4.2.3 爬频工具

  什么是抓取频率

  爬取频率是搜索引擎在单位时间内(天级别)爬取网站服务器的总次数。根据网站内容更新频率、服务器压力等因素自动调整爬取频率。

  何时调整抓取频率上限:

  首先百度蜘蛛会根据网站服务器压力自动调整爬取频率;

  其次,如果百度蜘蛛的爬取影响了网站的稳定性,站长可以使用这个工具来调整百度蜘蛛每日爬取网站的频率限制。

  重点1:调整爬取频率上限不等于提高爬取频率;

  重点2:建议站长慎重调整爬取频率的上限。如果爬取频率太小,会影响百度蜘蛛对网站的及时爬取,从而影响索引。

  4.2.4 爬取诊断工具

  什么是爬网诊断

  爬虫诊断工具可以让站长从百度蜘蛛的角度查看爬取的内容,自行诊断百度蜘蛛看到的内容是否与预期一致。每个站点每周可以使用 200 次,爬取结果只显示百度蜘蛛可以看到的前 200KB 内容。

  抓取诊断工具可以做什么

  目前爬虫诊断工具有以下功能:

  √ 诊断爬取的内容是否符合预期。例如,在很多商品详情页中,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息在搜索中难以应用。问题解决后,可使用诊断工具再次抓取测试;

  

  √ 诊断网页是否为黑链或隐藏文字。网站如果被黑客入侵,可能会添加隐藏链接。这些链接可能只有在百度爬虫的时候才会出现,所以需要用这个爬虫来诊断。

  4.2.5 爬取异常工具

  什么是爬网异常

  百度蜘蛛无法正常爬取,即爬取异常。通常 网站 抓取异常是由 网站 本身引起的。您需要网站按照工具提示检查网站问题并尽快解决。

  抓取异常如何影响 网站

  对于网站有大量内容无法正常抓取,搜索引擎会认为网站存在用户体验缺陷,降低对网站的评价。在爬取、索引、搜索评价方面都会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。

  爬取异常的原因是什么?

  ● 网站异常

  √ DNS异常:当百度蜘蛛无法解析网站的IP时,会出现DNS异常。可能是网站IP地址错误,或者域名服务商封杀了百度蜘蛛。请使用 whois 或 host 来检查您的 网站IP 地址是否正确且可解析。如不正确或无法解析,请联系域名注册商更新网站IP地址;

  √ 连接超时:抓取请求的连接超时可能是服务器过载、网络不稳定造成的;

  √ 爬取超时:爬取请求连接建立后,下载页面速度过慢,导致超时,可能是服务器过载,带宽不足;

  √ 连接错误:连接建立后无法连接或被其他服务器拒绝。

  ● 链接异常

  √ Access Denied:爬虫发起爬取,httpcode返回码为403;

  √ 找不到页面:爬虫发起爬取,httpcode返回码为404;

  √ 服务器报错:爬虫发起爬取,httpcode返回码为5XX;

  √ 其他错误:爬虫发起爬取,httpcode返回码为4XX,不包括403和404。

  4.3 提交工具

  4.3.1 链接提交工具

  目前有4种提交方式,分别是主动推送、站点地图、手动提交和自动推送。

  建议有新闻属性的网站使用主动推送进行数据提交;新的验证平台站点,或者对内容没有时效要求的站点,可以使用Sitemap提交网站所有使用Sitemap的内容;技术能力较弱,或者网站 内容较少的站点可以手动提交数据;最后,还可以使用插件自动推送数据到百度。

  

  使用链接提交工具,还要注意一些网站会使用第三方插件推送数据,插件推送方式需要站长仔细检查推送逻辑。第三方插件使用域名+标题进行推送,使得推送到百度的网址中有汉字,带有汉字的网址会跳转到带有301的真实网址。如果出现这种情况,你不能享受快速爬行的特权。.

  链接提交工具可以快速帮助网站实现内容抓取,使用第三方插件可以快速帮助站长解决推送问题。站长只需要在选择插件时仔细检查插件的数据逻辑,否则会推送错误的数据,网站数据不符合快速爬取福利的条件。

  4.3.2 死链接提交工具

  为什么要使用死链接工具

  当网站死链接数据积累过多,显示在搜索结果页面时,会对网站自身的访问体验和用户转化产生负面影响。另一方面,百度查死链接的过程也会给网站带来额外的负担,影响网站其他正常页面的爬取和索引。

  防范措施:

  √ 请推送协议死链数据,死链工具仅支持协议死链数据;

  √ 提交的死链接删除后,网站可以删除提交的死链接文件,否则搜索会继续爬取死链接文件确认文件内容。

  什么是死链规则提交?

  死链接规则是链接前缀,所有匹配该前缀的链接都是死链接。

  目前支持两种死链规则:

  √ 目录规则:前缀以“/”结尾;

  √ CGI 规则:以“?”结尾的前缀。

  什么是死链接文件提交?

  √ 站长需提交已被百度收录并需删除的链接。如果在百度上搜索不到链接,死链接可能不提交;

  √ 所有需要删除的链接都需要设置为404,如果发现链接不是死链接,会导致文件校验失败,从而无法删除死链接;

  √ 如果死链接文件爬取失败,可以使用爬取诊断工具判断死链接文件是否可以正常爬取;

  √ 站长提交死链接后,请勿在机器人中禁用百度蜘蛛。禁止百度蜘蛛会影响链接的正常删除;

  √ 如果要删除的链接已经被删除,请及时删除死链接文件;

  √ 提交死链接工具,死链接最长需要2-3天才能生效。如果站长发现链接没有被删除,可以在一周后重新提交。

  提交规则:

  √ 规则死链不支持通配符;

  √ 死规则必须以 ? 要么 /。

  关于死链接提交的常见问题

  √ 网站对于死链接数据,除了使用死链接提交工具,还可以使用robots来屏蔽百度的爬取。百度将不再按照robots文件中的规则抓取内容。如果内容已经在线显示,将被屏蔽;

  √ 如果已经提交了死链接的文件,蜘蛛会继续爬取,检查文件中是否有更新的链接;如果捕获到更新的链接,它将再次检查网站;如果死链接提交已经生效,并且该文件以后不会更新,可以直接在工具中删除该文件;

  √ 搜索资源平台的链接分析工具具有死链接分析功能,可以帮助网站在站点中查找死链接。

  4.3.3 移动适配工具

  什么是移动适配以及移动适配工具的作用

  主要使用移动适配工具。如果网站既有PC站也有移动站,并且两者在内容上可以对应,即主要内容完全一样,网站可以通过移动适配工具进行匹配关系方便百度识别PC和移动台的关系。

  站长通过移动适配工具提交pattern级或URL级PC页面与移动页面的对应关系。如果验证能够成功通过,将帮助百度手机搜索将手机用户直接发送到相应的手机页面结果。积极参与“移动适配”,有助于手机站在百度移动搜索上获得更多流量,同时以更好的浏览效果赢得用户口碑。

  如何使用移动适配工具

  当网站同时拥有移动端和PC端,且移动端和PC端的主要内容完全一致时,可以通过百度搜索资源平台(原百度)提交正确的适配关系站长平台)以获取更多更新。更多的移动流量。

  第一步:注册并登录百度搜索资源平台(原百度站长平台);

  第二步:提交PC<​​@网站并验证站点与ID的归属关系。归属地网站的具体验证方法可以在帮助文档中找到;

  第三步:站点验证后,进入“网站支持”-“数据导入”-“手机适配工具”,选择需要手机适配的PC站,然后“添加适配关系”;

  第四步:根据自己提交的适配数据的特点,选择适合网站的提交方式。目前移动适配工具支持规则适配提交 URL适配提交。无论使用哪种方式,都需要先指定PC和手机站点。这使得平台能够更快地验证提交的数据,给出反馈,并顺利生效。同时,以下步骤提交的适配数据必须收录指定站点,否则验证失败;

  1)规则适配:当PC地址和手机地址存在模式匹配关系时(如PC页面,手机页面/图片/12345.html),可以使用规则适配,添加PC端和手机端正则表达式的正则写法请参考工具页面的“正则格式说明”。强烈建议使用规则适配。提交成功后,相同规则的URL会继续生效,无需多次提交。同时,该方法的处理周期比URL适配的处理周期短,易于维护和排除故障。是百度推荐的投稿方式。

  2)URL适配:当规则适配不能满足适配关系表达时,可以使用“URL转文件上传”功能,将主内容相同的PC链接和手机链接提交给百度:文件格式为 each 行前后的两个 URL 分别是 PC 链接和移动链接。它们由空格分隔。一个文件最多可以提交50,000对URL,也可以提交多个文件。另外网站还可以选择“批量提交URL对”,直接在输入框中输入URL对,格式和文件一样,但是这里一次只能提交2000对URL .

  Step 5:提交适配数据后,按照移动适配工具提供状态描述。如果适配不成功,您可以根据描述文字和示例进行相应调整后更新并提交适配数据。

  4.3.4、机器人

  什么是机器人文件

  机器人是网站与蜘蛛进行交流的重要渠道。该站点通过robots文件声明了网站中不想被搜索引擎抓取的部分,或者指定搜索引擎只抓取特定的部分。

  请注意,仅当 网站 收录您不希望被搜索引擎抓取的内容时,才需要 robots.txt 文件。如果您希望搜索引擎抓取 网站 上的所有内容,请不要创建 robots.txt 文件。我们之前发现了很多网站流量下降的例子,但最后的痕迹是因为技术人员通过机器人屏蔽了搜索引擎。

  为避免站长设置robots文件时出错,百度搜索资源平台(原百度站长平台)特推出robots工具,帮助站长正确设置robots。

  robots.txt 文件的格式

  robots文件通常放在根目录下,收录一条或多条记录,记录之间用空行分隔(以CR、CR/NL或NL为终止符)。每条记录的格式如下:

  “:”

  在这个文件中可以使用#作为注解,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,然后是几行 Disallow 和 Allow 行。详细情况如下:

  User-agent:此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个机器人会受到“robots.txt”的限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。如果在“robots.txt”文件中,添加“User-agent: SomeBot”和几行Disallow和Allow行,那么“SomeBot”的名称只受“User-agent: SomeBot”后面的Disallow和Allow行的限制。

  Disallow:此项的值用于描述一组不想被访问的URL。该值可以是完整路径,也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,但不能访问 /help/index.html。“Disallow:”表示允许机器人访问这个网站的所有URL。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”不存在或为空文件,则 网站 对所有搜索引擎机器人开放。

  允许:此项的值用于描述您希望访问的一组 URL。与 Disallow 项类似,该值可以是完整路径,也可以是路径前缀。以 Allow 项的值开头的 URL 是允许机器人访问的。例如“允许:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认为 Allow,因此 Allow 通常与 Disallow 结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。

  使用“*”和“$”:百度蜘蛛支持使用通配符“*”和“$”来模糊匹配URL。

  "*" 匹配零个或多个任意字符。

  "$" 匹配行终止符。

  最后要注意的是:百度会严格遵守机器人的相关协议。请注意区分网站目录不想被爬取或被爬取的大小写。百度会将robots中写入的文件与网站进行比较,不想完全匹配爬取和爬取的目录,否则robots协议不会生效。

  4.4 搜索演示工具

  网站logo 百度搜索资源平台推出的免费工具,可以给网站品牌曝光和展示。站点标识是百度搜索根据网站评价、用户需求、用户浏览轨迹等进行系统分析的结果,因此本工具并不具备所有站点的权限。

  4.4.1 个网站标志

  申请百度搜索下的logo展示,网站可以通过搜索资源平台-网站属性-网站logo提交。这个工具是一个免费的展示工具。

  下图是网站徽标的屏幕截图示例:

  

  4.5 维护工具

  4.5.1 网站修订工具

  当网站的域名或目录发生变化时,如果想百度快速收录换新链接替换旧链接,需要使用百度搜索资源平台的网站修改工具提交网站的修改关系,加快百度用收录替换新旧链接。网站更换域名对网站的影响,请参考5.1章网站更换域名。

  使用修改工具提交修改规则的前提:

  √ 站点的URL发生了变化,不管是域名还是站点的目录,或者结果页的URL发生了变化,修改工具提供支持,这里单独点,页面内容的变化不在修订工具的范围内;

  √ 如果站点URL的路径和参数没有变化,只是域名发生了变化,你只需要知道修改前的每个域名和修改后的域名的对应关系,不要省略任何排序出去。目前,平台不支持主域级别的修订规则。提交,每个域名需要单独提交才能生效;

  √ 如果站点URL的路径和参数发生了变化,但是路径和参数是正则的,可以使用正则表达式整理出修改前后的URL对应关系;

  √ 若网站网址无规律变化,需准确梳理修改前网址与修改后网址的对应关系。

  站长必须准确找到对应关系,这与修改规则的生效息息相关。有了准确的对应关系,就可以设置301跳转。

  4.5.2 闭合保护工具

  如果由于网站自身原因(版本修改、服务暂停等)、客观原因(服务器故障、策略影响等)导致网站长期无法访问,则禁用。站长可以通过闭站保护工具提交申请。申请通过后,百度搜索引擎将暂时保留该索引,暂停对该网站的爬取,并暂停其在搜索结果中的展示。网站恢复正常后,站长可以通过闭站保护工具申请恢复。申请通过后,百度搜索引擎将恢复对网站的爬取和展示,网站的评价分数不受影响。

  封闭站点保护工具的重要提示如下:

  √ 申请关闭本站,需确保本站所有链接均为死链接或直接关闭服务器。申请恢复需要确保网站服务器已经启动,并且没有死链接。为尽快进行闭站保护/解除闭站保护,保护自己的权益,请在提交申请前确保以上条件均无问题(审核非常严格,抽检内容基本上需要100%);

  √ 对于闭站保护申请、死链提交等工具,提及的死链设置必须是协议死链,即返回码为404,否则验证失败。

  ● 内容已死,例如在网页上简单地写404,或在图片上绘制404,是不可接受的。

  ● 要判断你的网页返回码是否为404,可以直接在浏览器中打开控制台,查看网络文档,刷新页面。

  

  ● 或者您可以使用控制台上的命令:curl -i 网页地址。

  ● 检查返回的信息。

  

  闭站保护只能保证网站的索引量,不能保证网站的排名。之前有一些网站反映封闭站保护不好用,因为网站的排名在封闭站恢复后没有了。这里再次强调,使用闭站工具只能保留网站的索引量,但不能保证网站@网站的排名保持不变。

  关于封闭站点保护的常见问题:

  √ 闭站保护审批时间为提交申请至生效之日起1日内;

  √ 申请恢复封闭站点保护,如站点无404页面等,2天内恢复;

  √ 站点关闭保护生效后,首页不会被屏蔽。如果您有网站主页屏蔽请求,可以在搜索资源平台反馈中心提交;

  √ 关闭站点保护最长保护时间为180天,180天后自动解除,如站点有404页

  √ 仍会正常屏蔽;

  √ 主站申请闭站保护后,对应的移动站也需要申请闭站保护;即使存在适配关系,也只有适配关系中的移动链接可以被屏蔽,其他不属于适配关系的链接,如直接爬取的链接,仍然不能被屏蔽。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线