php 抓取网页标题(抓取诊断工具能做什么目前抓取抓取工具有如下作用)
优采云 发布时间: 2021-12-28 08:09php 抓取网页标题(抓取诊断工具能做什么目前抓取抓取工具有如下作用)
什么是抓取诊断
抓取诊断工具可以让站长从百度蜘蛛的角度查看抓取到的内容,自我诊断百度蜘蛛看到的内容是否与预期一致。每个站点每周可使用70次,抓取结果仅显示百度蜘蛛可见的前200KB内容。
抓取诊断工具能做什么?
目前爬行诊断工具有以下功能:
1、 诊断爬取的内容是否符合预期。比如很多商品详情页,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息在搜索中比较难应用。问题解决后,可使用诊断工具再次检查。
2、 判断网页是否添加了黑色链接和隐藏文字。如果网站被黑客入侵,可能会添加隐藏链接。这些链接可能只有在被百度抓取时才会出现,您需要使用该爬虫进行诊断。
3、 检查网站与百度的连接是否顺畅。如果IP信息不一致,可以报错并通知百度更新IP。
抓取诊断工具常见错误类型分析
[网址规范]
百度支持抓取的网址长度不超过1024。如果您的链接长度过长,请在保证正常访问的同时适当简化,确保链接能被百度正常抓取和收录。
[重定向错误]
重定向是指百度蜘蛛访问链接时的重定向。如果重定向后的链接过长或连续重定向次数超过5次,就会出现重定向错误,爬取失败。
[服务器连接错误]
这种情况意味着由于服务器响应缓慢或百度蜘蛛在您的网站上被阻止,百度无法访问您的网站。因此,百度无法正常收录或更新您网站的内容。您可能会看到以下特定错误:连接超时、连接失败、连接被拒绝、无响应、响应截断、连接重置、标头截断、超时。
*如何处理服务器连接错误?
减少动态页面请求的过多页面加载。如果一个网站为多个网址提供相同的内容,则视为动态提供内容(例如,提供的内容相同)。动态网页的响应时间可能很长,这会导致超时问题。或者,服务器可能会回到过载状态,请求百度蜘蛛减慢网站的爬行速度。一般情况下,建议尽量使用短参数,谨慎使用。
确保您网站的托管服务器没有停机、过载或配置错误。如果连接问题、超时问题或响应问题仍然存在,请联系您的网络托管服务提供商,并考虑增强您网站处理流量的能力。
检查网站是否误封了百度蜘蛛的IP。您可能因系统级问题(例如 DNS 配置问题、防火墙或 DoS 保护系统配置不当、内容管理系统配置问题)而阻止百度访问。防御系统是保证托管服务正常运行的关键因素之一,这些系统通常配置为自动防止过度的服务器请求。由于百度蜘蛛通常比普通用户发出更多的请求,这些防御系统可能会被触发,导致它们阻止百度蜘蛛访问和抓取您的网站。要解决此类问题,您需要确定网站基础架构的哪一部分正在阻止百度蜘蛛,然后取消阻止。如果您无权控制防火墙,则需要联系您的托管服务提供商解决此问题。
[机器人禁令问题]
在抓取诊断工具中,如果返回抓取失败的结论是robots被禁止,请确认您是否在URL上设置robots以防止百度蜘蛛抓取网站的某些内容。如果您没有使用robots文件屏蔽百度,请点击旁边的错误链接,百度会立即更新您网站的robots信息;如果您的操作不当导致被封禁,请及时修改robots文件,以免降低您网站的收录和百度流量。
[DNS 问题]
DNS 错误是指百度蜘蛛无法与 DNS 服务器通信,因为服务器停止运行或从 DNS 到您的域的路由有问题。
*如何处理DNS错误?
确保百度可以抓取您的网站。对重要网页(例如您的主页)使用抓取诊断工具。如果它能顺利返回到你的首页内容,那么你就可以认为百度可以正常访问你的网站了。
对于持续或重复出现的 DNS 错误,请联系您的 DNS 提供商。通常,您的 DNS 提供商是网站托管服务提供商。
将您的服务器配置为使用 HTTP 错误代码(例如 404 或 500)响应不存在的主机名。
[404 错误]
一般情况下,当百度蜘蛛访问一个不存在的网页时(因为你删除或重命名了该网页并且没有将旧网址重定向到新网页,或者链接中存在拼写错误),会出现“No Found”状态错误(通常是 404 HTTP 状态代码)。
[拒绝访问]
一般情况下,百度会通过网页之间的链接来查找内容。百度蜘蛛必须能够访问某个网页才能抓取该网页。如果您不小心看到“拒绝访问”错误,可能是由于以下原因:
(1)百度蜘蛛无法访问您网站上的网址,因为您网站上的全部或部分内容需要用户登录才能查看。
(2)您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度蜘蛛访问您的网站。
[参数错误]
由于请求的语法格式不正确,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解请求,爬取失败。
[套接字读写错误]
百度蜘蛛访问服务器进行tcp通信时,socket读写异常,导致数据无法正常返回。请检查服务器连接状态和防火墙设置是否符合预期。