网站内容抓取工具(百度搜索资源平台(原百度站长平台)使用全攻略优化工具)

优采云 发布时间: 2021-09-29 19:01

  网站内容抓取工具(百度搜索资源平台(原百度站长平台)使用全攻略优化工具)

  作为一个SEO人,你应该了解搜索引擎游戏的规则,善用各种seo优化工具。面对市场上琳琅满目的工具和软件,哪一个好用又货真价实?下面是百度官方产品——百度搜索资源平台(原百度站长工具)的详细介绍,相信比任何优化公司的资料都详细!

  

  如何使用百度搜索资源平台(原百度站长平台)

  百度搜索资源平台(原百度站长平台)是全球最大的面向中国互联网管理者、移动开发者、创业者的搜索流量管理官方平台。提供帮助搜索引擎数据查询与优化、SEO建议、多端适配服务能力等工具。

  百度站长工具地址:

  查询工具

  1、 索引卷工具

  网站的索引量是指用户在百度搜索中可以搜索到的网站链接总数。百度蜘蛛通过爬取发现网站的内容,分析页面,建立有价值内容的索引库,最终让搜索用户找到网站的内容。

  网站 被百度蜘蛛抓取后,经​​过一系列的计算,建立在索引库中,才有机会与搜索用户见面。因此,索引量一直是站长关注的焦点,但是对于索引量工具存在一些误区,以下是正确答案:

  √ 索引量不等于网站流量:索引库分为多级。只有进入上层索引库,才有更多机会与搜索用户见面;进入下层图书馆的机会很小。因此,指数总量的整体增减并不代表流量有任何变化

  √ 索引量的变化不直接影响流量的变化:当流量发生巨大变化时,索引量数据可以作为排查的渠道之一,但不是唯一的排查渠道。索引量的变化不直接影响流量变化

  √ 指数量波动,指数量波动10%(经验值),甚至更大,可能是正常的。只要交通没有太大变化,就没有必要紧张。

  2、流程和关键词工具

  流量和关键词工具,提供网站热门关键词在百度搜索结果中的展示和点击数据,通过监控关键词的性能帮助网站更好的进行优化、流量和< @关键词工具可以充分帮助站长了解网站在百度搜索引擎中的表现,确定页面和网站的优化方向,为网站运营决策提供分析依据.

  关于流量和关键词工具,还有一点需要强调。如果站长需要在反馈中心提交网站的异常流量信息,请使用本工具的数据和数据截图作为证据,方便工作人员分析网站的问题。

  3、 爬频工具

  3.1 什么是爬取频率

  爬取频率是搜索引擎在单位时间内(天级别)爬取网站服务器的总次数。如果搜索引擎对网站的抓取频率过高,服务器很可能不稳定,百度蜘蛛会根据内容更新频率、服务器压力等因素自动调整抓取频率。

  3.2 什么情况下可以爬取频次上限调整?

  首先百度蜘蛛会根据网站服务器压力自动调整爬取频率。

  其次,如果百度蜘蛛的爬取影响了网站的稳定性,站长可以使用这个工具来调整百度蜘蛛每天爬取网站的频率限制。

  重点1:调整爬行频率上限并不意味着增加爬行频率。

  重点2:建议站长慎重调整爬取频率上限。如果抓取频率过小,会影响百度蜘蛛对网站的及时抓取,进而影响索引。

  4、获取诊断工具

  4.1 什么是爬虫诊断

  爬行诊断工具可以让站长从百度蜘蛛的角度查看爬取的内容,自我诊断百度蜘蛛看到的内容是否与预期相符。每个站点每周可使用200次,抓取结果只显示百度蜘蛛可见的前200KB内容。

  4.2 爬虫诊断工具能做什么?

  目前的爬虫诊断工具有以下功能:

  √ 诊断抓取的内容是否符合预期。比如很多商品详情页,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息在搜索中比较难应用。问题解决后,可使用诊断工具再次检查。

  

  √ 判断网页是否添加了黑色链接和隐藏文字。网站如果被黑,可能会添加隐藏链接。这些链接可能只有在被百度抓取时才会出现,您需要使用该爬虫进行诊断。

  5、 抓取异常工具

  5.1 什么是爬取异常

  百度蜘蛛不能正常爬行,是爬行异常。一般网站抓取异常都是由网站自身原因引起的。您需要网站按照工具提示尽快检查网站问题并解决。

  5.2 爬取异常对网站有什么影响

  对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验缺陷,降低对网站在抓取、索引、搜索评价会受到一定程度的负面影响,最终影响网站从百度获得的流量。

  5.3 爬取异常的原因有哪些?

  ● 网站 异常

  √ DNS异常:当百度蜘蛛无法解析网站的IP时,会出现DNS异常。可能是网站IP地址错误,或者域名服务商封禁了百度蜘蛛。请使用 whois 或 host 来检查您的 网站 IP 地址是否正确且可解析。如果不正确或无法解决,请联系域名注册商更新网站 IP地址。

  √ 连接超时:fetch 请求连接超时,可能的原因是服务器过载,网络不稳定

  √ 爬取超时:爬取请求连接建立后,下载页面速度太慢,导致超时。可能的原因是服务器过载,带宽不足。

  √ 连接错误:连接建立后无法连接或被对方服务器拒绝

  ● 异常链接

  √ Access denied:爬虫发起爬取,httpcode返回码为403

  √ 页面找不到:爬虫发起爬取,httpcode返回码为404

  √ 服务器错误:爬虫发起爬取,httpcode返回码为5XX

  √ 其他错误:爬虫发起爬取,httpcode返回码为4XX,不包括403和404

  提交工具

  1、链接提交工具

  目前有四种提交方式,分别是主动推送、站点地图、手动提交和自动推送。这四种推送方式的区别如下图所示。

  推荐有新闻属性站点,数据提交使用主动推送;

  新的验证平台站点,或对时效性要求不高的站点,可以使用Sitemap提交网站使用Sitemap的所有内容;

  对于技术能力较弱或内容较少的网站,可以采用手动提交方式进行数据提交;

  最后还可以使用插件方式、自动推送方式向百度提交数据。

  

  在使用链接提交工具时,还要注意一些网站会使用第三方插件来推送数据。插件推送方式需要站长仔细检查推送逻辑。碰巧站长使用了第三方插件来推送数据。第三方插件采用域名+标题的方式推送,使得推送到百度的网址中有汉字。有中文字符的网址会301跳转到真实网址。在这种情况下,您无法享受快速爬行的好处。.

  链接提交工具可以快速帮助网站实现内容抓取,使用第三方插件可以快速帮助站长解决推送问题。站长只需在选择插件时仔细检查插件数据逻辑,否则会推送错误数据,网站数据无法享受快速获取权限。

  2、死链提交工具

  2.1 为什么要用死链接工具

  当网站死链数据积累过多并显示在搜索结果页面时,会对网站本身的访问体验和用户转化产生负面影响。另一方面,百度查死链接的过程也会给网站带来额外的负担,影响网站其他正常页面的抓取和索引。

  预防措施:

  √ 请推送协议死链数据,死链工具只支持协议死链数据

  √ 提交的死链接删除后,网站可以删除提交的死链接文件,否则搜索会继续抓取死链接文件并确认文件中的内容

  2.2 什么是死链接规则提交?

  死链接规则是链接前缀,所有匹配前缀的链接都是死链接。

  目前支持两种类型的死链接规则:

  √ 目录规则:以“/”结尾的前缀

  √ CGI 规则:以“?”结尾的前缀

  2.3 什么是死链接文件提交?

  √ 站长需要提交已被百度收录需要删除的链接。如果在百度上搜索不到链接,则不需要提交死链接

  √ 所有需要删除的链接都需要设置为404,如果有链接不是死链接,文件校验失败,死链接无法删除。

  √ 如果死链接文件捕获失败,可以使用捕获诊断工具判断死链接文件是否可以正常捕获。

  √ 站长提交死链接后,请勿在机器人中屏蔽百度蜘蛛。屏蔽百度蜘蛛会影响链接的正常删除。

  √ 如果需要删除的链接已被删除,请及时删除死链接文件

  √ 提交死链接工具,死链接最多需要2-3天才能生效。如果站长发现链接没有被删除,一周后可以重新提交。

  规则提交:

  √ 规则死链接不支持通配符。

  √ 规则的死链接必须是一个以?或者 /。

  2.4 关于死链提交的常见问题

  √ 网站 死链数据,除了使用死链提交工具,还可以使用robots来拦截百度爬虫。百度不会按照robots文件中的规则抓取内容。如果内容已经在线显示,将被屏蔽;

  √ 如果死链接文件已经提交,蜘蛛会继续爬行,检查文件中是否有更新的链接;如果它捕捉到更新的链接,它会再次检查网站;如果死链接提交已经生效,并且这个文件以后不会更新,可以直接在工具中删除该文件;

  √ 搜索资源平台中的链接分析工具具有死链接分析功能,可以帮助网站查找网站中的死链接。

  3、移动适配工具

  3.1 什么是移动适配,移动适配工具的作用

  主要使用移动端适配工具,如果网站既有PC站又有移动站,并且两者在内容上可以对应,即主要内容完全一致,网站即可通过手机适配工具匹配关系,方便百度识别PC与手机站的关系。

  站长通过手机适配工具提交PC页面与手机页面的模式级或URL级对应关系。如果验证可以顺利通过,将有助于百度移动搜索将移动用户直接发送到相应的移动页面结果。积极参与“手机适配”,有助于手机站上百度手机搜索,获取更多流量,同时以更好的浏览效果赢得用户口碑。

  3.2 如何使用手机适配工具

  当网站既有手机站又有PC站,且手机页面和PC页面的主要内容完全一致时,可以通过百度搜索资源平台(原百度站长)提交正确的适配关系平台)以获取更多信息。更多的移动流量。

  第一步:注册并登录百度搜索资源平台(原百度站长平台)

  第二步:提交PC<​​@网站并验证站点与ID的归属关系,具体验证网站归属方式可查看帮助文档

  第三步:站点验证后,进入“网站支持”-“数据导入”-“移动适配工具”,选择需要移动适配的具体PC站,然后“添加适配关系”

  第四步:根据自己提交的适配数据的特点,选择适合网站的提交方式。目前手机适配工具支持规则适配提交URL适配提交。无论使用哪种方式,都需要先指定PC和手机站点。这将使平台能够更快地检查提交的数据,进行反馈,并顺利生效。同时,后续步骤提交的适配数据必须收录指定站点,否则验证失败。

  1) 规则适配:当PC地址和手机地址有模式匹配关系时(如PC页面,手机页面/图片/12345.html),可以使用规则适配,添加For PC和移动正则表达式,请参考工具页面的“正则格式说明”中的正则表达式。强烈建议使用规则自适应。一次提交成功后,新添加的相同规则的URL将继续生效,无需多次提交。同时,该方法的处理周期比URL适配短,易于维护和故障排除。是百度推荐的投稿方式。

  2)URL适配:当规则适配不能满足适配关系的表达时,可以使用“URL到文件上传”功能将主要内容相同的PC链接和手机链接提交给百度:文件格式为 per 前后两个 URL 分别是 PC 链接和手机链接,中间用空格隔开。一个文件最多可以提交50000对URL,也可以提交多个文件。另外,网站还可以选择“URL对批量提交”,直接在输入框中输入URL对,格式和文件一样,但是这里一次只能提交2000对URL。

  第五步:提交适配数据后,跟随手机适配工具会提供状态描述。如果适配不成功,您可以根据描述文本和示例进行相应调整后更新提交的适配数据。

  4、机器人

  4.1 什么是robots文件

  机器人是网站与蜘蛛沟通的重要渠道。网站通过robots文件声明网站的部分不想被搜索引擎抓取或指定搜索引擎只抓取特定部分。

  请注意,仅当 网站 收录您不想被搜索引擎抓取的内容时,才需要 robots.txt 文件。如果您想让搜索引擎抓取 网站 上的所有内容,请不要创建 robots.txt 文件。之前找过很多网站流量下降的例子,最后追查是因为技术人员通过机器人屏蔽了搜索引擎。

  为避免站长设置robots文件时出错,百度搜索资源平台(原百度站长平台)特推出robots工具,帮助站长正确设置robots。

  4.2 robots.txt文件的格式

  Robots 文件通常放置在根目录中,并收录一个或多个记录。这些记录由空行分隔(以 CR、CR/NL 或 NL 作为终止符)。每条记录的格式如下:

  ":"

  可以在这个文件中使用#做注释,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 和 Allow 行。详细情况如下:

  User-agent:此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被“robots.txt”限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”等一条记录。如果您在“robots.txt”文件中添加“User-agent: SomeBot”和几行禁止和允许行,则名称“SomeBot”仅受“User-agent: SomeBot”之后的禁止和允许行的限制。

  Disallow:此项的值用于描述一组不想被访问的 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”则允许机器人访问/help.html、/helpabc。 html,而不是访问 /help/index.html。“Disallow:”表示允许机器人访问网站的所有URL。在“/robots.txt”文件中,必须至少有一个Disallow记录。如果“/robots.txt”不存在或者是一个空文件,这个网站 对所有搜索引擎机器人都是开放的。

  Allow:此项的值用于描述一组您希望访问的 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。

  使用“*”和“$”:百度蜘蛛支持使用通配符“*”和“$”来模糊匹配URL。

  "*" 匹配 0 个或多个任意字符

  "$" 匹配行尾。

  最后需要注意的是:百度会严格遵守机器人的相关协议。请注意区分网站不想被抓取或被抓取的情况。百度会把robots中写的文件和网站不想被爬取的目录做完全匹配,否则robots协议不生效。

  搜索和显示工具

  网站标识 百度搜索资源平台推出免费工具,可以给网站品牌曝光和展示。站点标识是百度搜索基于网站评价、用户需求、用户浏览轨迹等系统分析得出的效果,因此本工具不具备所有站点的权限。

  1、网站标志

  申请百度搜索下的logo展示,可通过搜索资源平台-网站属性-网站logo提交网站。这个工具是一个免费的展示工具。

  

  上图为网站logo截图示例

  维修工具

  1、网站修改工具

  当网站的域名或目录发生变化时,如果想让百度快速收录变更后的新链接,替换之前的旧链接,需要使用百度的网站改版工具搜索资源平台。提交网站修改版,加速百度用收录替换新旧链接。网站更改域名对网站的影响,我们会在下一篇文章更新。

  使用修订工具提交修订规则的前提条件:

  √ 网站网址已更改。无论是域名还是站点目录,还是结果页面的URL,修改工具都提供支持。这里有一个单独的点。页面内容的更改超出了修订工具的范围。

  √ 如果站点URL的路径和参数部分没有变化,只是域名发生了变化,您只需要知道修改前的各个域名和修改后的域名的对应关系即可。不要有任何遗漏。当前平台不支持主域级别的修订规则。提交时,每个域名都需要单独提交才能生效。

  √ 如果站点URL的路径和参数发生变化,但经常发现路径和参数,可以使用正则表达式来梳理修改前后的URL对应关系。

  √ 如果站点的URL无规律变化,需要准确梳理修改前的URL与修改后的URL的对应关系。

  站长必须准确找到对应关系,这与修订规则的有效性密切相关。一旦有了准确的对应关系,就可以设置 301 跳转。

  2、封闭站点保护工具

  网站因网站自身原因(改版、暂停服务等)、客观原因(服务器故障、政策影响等)导致网站长期无法正常访问一段时间后,百度搜索引擎会认为该站点属于Disabled。站长可以通过封闭站点保护工具提交申请。申请通过后,百度搜索引擎将暂时保留索引,暂停对该网站的抓取,并暂停其在搜索结果中的显示。网站恢复正常后,站长可以通过闭站保护工具申请恢复。申请通过后,百度搜索引擎将恢复对网站的抓取和展示,不影响网站的评价分数。

  封闭站点保护工具的重要提示如下:

  √ 申请关闭站点,需要确保所有站点链接均为死链接或直接关闭服务器。申请恢复需要保证网站服务器已经启动,没有死链接。为尽快开展封闭式保护/解除封闭式保护,保护您自身的权益,请您在提交申请前确认以上条件无误(审核非常严格,采样的含量基本需要为100%);

  √ 对于闭站保护申请、死链接提交等工具,所有提到的设置死链接都必须是协议死链接,即返回码为404,否则验证失败。

  ● 内容中的死链接,例如简单地在网页上写 404 或在图片上画 404,是不可接受的

  ● 判断你的网页返回码是否为404,可以直接在浏览器中打开控制台,查看网络文档,刷新页面

  

  ● 或者在控制台使用命令:curl -i 网址

  ● 查看返回的信息

  

  封闭站点保护只能保证网站的索引量,不能保证网站的排名。有站内反馈说,由于关闭站点恢复后网站的排名消失,因此关闭站点保护没有用。再次,使用闭站工具只能保留网站的索引,但不保证网站的排名保持不变。

  关于封闭站点保护的常见问题:

  √ 封闭场地保护的通过时间为自提交申请之日起至生效之日。

  √ 恢复封闭站点保护应用。如果网站没有任何404页面等,它会在2天内恢复。

  √ 封站保护生效后,主页不会被屏蔽。如果有网站首页屏蔽需求,可以在搜索资源平台反馈中心提交

  √ 封闭站点保护最长保护时间为180天,180天后自动解除。如果网站有 404 页面

  √ 仍会正常屏蔽

  √ 主站申请闭站保护后,对应的移动站也需要申请闭站保护;即使存在适配关系,也只能屏蔽适配关系中的移动链接,其他不属于适配关系的链接,如直接爬取的链接仍然无法屏蔽。

  3、HTTP 认证工具

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线