php抓取网页标签(常见错误描述推送失败返回说明:API接口填写错误)
优采云 发布时间: 2022-04-12 22:28php抓取网页标签(常见错误描述推送失败返回说明:API接口填写错误)
可以通过推送后返回的状态码和字段判断数据是否推送成功。
1、状态码为200,表示推送成功,可能返回以下字段:
场地
是强制性的吗
参数类型
阐明
成功
是的
整数
成功推送的网址数
保持
是的
整数
当天剩余的可推送 URL 数
不同的站点
不
大批
未处理的 url 列表,因为它们不是该站点的 url
无效
不
大批
无效网址列表
成功返回示例:
{
“剩余”:4999998,
“成功”:2,
“不同的站点”:[],
“无效”:[]
}
2、如果状态码为4XX或500,则表示推送失败。返回的字段是:
场地
是强制性的吗
类型
阐明
错误
是的
整数
错误码,与状态码相同
信息
是的
细绳
错误的描述
常见推送失败返回示例说明:
错误
信息
意义
400
网站错误
网站未经站长平台验证
空内容
帖子内容为空
一次只允许 2000 个 url
您一次最多只能提交 2000 个链接
超过配额
如果超过每日配额,超过配额后的提交无效。
401
令牌无效
令牌错误
404
未找到
接口地址填写错误
500
内部错误,请稍后再试
服务器偶尔出现异常,一般重试会成功
API推送功能FAQ
1. 与原来的sitemap提交界面有什么区别?
A:状态反馈更及时。本来,提交后需要登录搜索资源平台查看是否提交成功。目前只能根据提交后返回的数据来判断。
2. 提交站点地图数据需要对现有程序代码进行哪些修改?
答:主要有两个变化。第一点是提交的接口需要修改;第二点是需要对接口返回的信息进行处理。失败后,需要根据错误进行处理。报错的链接无法提交成功。
3、为什么提交成功后看不到数据变化?
A:我们反馈的是新提交的链接数量。如果您提交的链接之前已经提交过(即重复提交),则不予计算。
4、使用API推送提交功能什么时候效果最明显?
A:最好的效果是在页面链接生成或发布时立即提交链接。
5. 一次提交一份数据和多份数据有什么区别?
答:没有区别
6. 重新提交已经发布的链接有什么问题?
A:会有两种效果。首先,您提交的配额将被浪费。每个站点每天可以提交的提交数量是有限制的。如果您提交了旧链接,当有新链接时,您可能会因为配额用尽而无法提交。二、如果您频繁重新提交旧链接,我们会降低您的配额,您可能无法使用API推送功能
7、API推送可以推送多少个链接?
答:API推送最多可以提交的链接数量取决于您提交的新生成的有价值链接的数量。百度会根据您提交的新生成的有价值链接的数量不时调整上限。限制越高,可提交链接的限制就越高。
什么是站点地图
站点地图是 网站 上的页面列表。创建和提交站点地图有助于百度发现和了解您 网站 上的所有页面。您也可以通过 Sitemap 提供关于您的其他信息网站,例如最后更新日期、Sitemap 文件的更新频率等,以供百度蜘蛛参考。
百度不保证所有的 URL 都会被提交的数据抓取和索引。但是,我们会使用 Sitemap 中的数据来了解 网站 的结构,这可以帮助我们改进我们的爬取策略,并在以后更好地爬取 网站。
此外,站点地图与搜索排名无关。
百度站点地图支持哪些格式?
百度站点地图协议支持文本格式和xml格式,您可以根据自己的情况选择任何格式来组织站点地图。具体格式说明及示例如下:
1.第一种格式示例:txt文本格式
以txt文本列出需要提交给百度的链接地址,通过搜索资源平台提交txt文本文件
此文本文件需要遵循以下准则:
·文本文件每行必须有一个URL。URL 中不能有换行符。
· 不应收录 URL 列表以外的任何信息。
·你必须写完整的URL,包括http。
· 每个文本文件最多可收录 50,000 个 URL,并且应小于 10MB(10,485,760 字节)。如果 网站 收录超过 50,000 个 URL,您可以将列表拆分为多个文本文件并单独添加每个文件。
·文本文件需要使用UTF-8编码或GBK编码。
2.第二种格式示例:xml格式
单个xml数据格式如下:
并且收录在其中,这是必须的-->
2009-12-14
日常
0.8
2010-05-01
日常
0.8
以上Sitemap向百度提交了一个url:
如果有多个url,按照上述格式按照重复之间的段列出所有的url地址,打包成xml文件,提交给搜索资源平台。
创建站点地图时有哪些注意事项?
首先,站点地图文件收录的 URL 不得超过 50,000 个,文件大小不得超过 10 MB。如果您的站点地图超出这些限制,请将其拆分为几个较小的站点地图。这些限制有助于确保您的 Web 服务器不会因提供大文件而过载。
其次,一个站点支持的站点地图文件的数量必须少于 50,000 个。如果站点地图文件数量超过50000个,则不处理,并提示“链接数量超过”。
第三,如果 网站 的主域被验证,则站点地图文件可以收录该 网站 主域下的所有 URL。
四、搜索资源平台提交sitemap文件不再支持索引文件的形式,不再抓取历史提交的索引文件。建议站长及时删除,重新提交资源。
如何提交站点地图
第一步是制作要提交到站点地图文件中的网页列表。文件格式请阅读百度站点地图协议支持哪些格式。
第二步,将 Sitemap 文件放在 网站 目录中。比如你的网站是,你已经创建了sitemap_example.xml的Sitemap文件,上传sitemap_example.xml到网站的根目录,即/sitemap_example.xml
第三步,登录百度搜索资源平台,确保提交Sitemap数据的网站已经验证了归属。
第四步,进入Sitemap工具,点击“Add New Data”,文件类型选择“URL List”,并填写抓取周期和Sitemap文件地址
最后,提交后,可以在Sitemap列表中看到提交的Sitemap文件。如果Sitemap文件中有新的网站链接,可以选中该文件,点击Update进行选择,即更新网站链接。> 链接已提交。
什么是移动站点地图协议以及如何提交移动站点地图协议
百度引入了 Mobile Sitemap 协议,用于向移动搜索提交 URL收录。百度手机Sitemap协议是在标准Sitemap协议的基础上制定的,增加了标签。它有四个值:
: 移动网页
: 移动网页
: 响应式网页
: 代码适配
以上标签均未表示为 PC 页面
下面的例子相当于向百度移动搜索提交移动网页,向PC搜索提交传统网页,向移动搜索和PC搜索提交自适应网页:
xmlns:mobile=””>
2009-12-14
日常
0.8
2009-12-14
日常
0.8
2009-12-14
日常
0.8
2009-12-14
日常
0.8
按照Mobile Sitemap协议完成Sitemap后,在Sitemap工具中点击Add New Data提交,与提交普通Sitemap相同。
我提交时填写的周期是什么意思?
百度蜘蛛会参考设置周期抓取Sitemap文件,请根据Sitemap文件内容的更新(如添加新的url)进行设置。请注意,如果url保持不变,只是更新了url对应的页面内容(例如论坛发帖页面有新回复),则不在本次更新范围内。站点地图工具不能解决页面更新问题。
Sitemap提交后百度处理需要多长时间?
Sitemap数据提交后,百度一般会在1小时内开始处理。在以后的定时爬取中,如果您的站点地图支持etag,我们会更频繁地爬取站点地图文件,及时发现内容更新;否则,爬取周期会更长。
所有提交的站点地图都会被百度和收录抓取吗?
百度不保证提交的数据会被爬取和收录所有的URL。收录 是否与页面质量有关。
“优先级”提示会影响我的页面在 XML 站点地图中的搜索结果中的排名吗?
惯于。Sitemap 中的“优先级”提示仅表明该 URL 相对于您自己 网站 上的其他 URL 的重要性,并且不会影响页面在搜索结果中的排名。
Sitemap 中 URL 的位置是否会影响其使用?
惯于。站点地图中 URL 的位置不会影响百度识别或使用它的方式。
Sitemap中提交的网址可以收录中文吗?
因为转码问题,建议不要收录中文。
什么是自动推送工具?自动推送工具解决了什么问题?
自动推送JS代码是百度搜索资源平台最新推出的轻量级链接提交组件。站长只需要将自动推送的JS代码放置在网站各个页面的源码中即可。当页面被访问时,会自动推送页面链接。对百度来说,这将有助于百度更快地发现新页面。
为了更快速地发现网站每天产生的最新内容,百度搜索资源平台推出了API推送工具。产品上线后,有站长反映使用API推送方式技术门槛高,我们顺势推出了成本更低的JS自动推送工具。一步安装可实现页面自动推送,成本低,利润高。
如何安装和使用自动推送代码?
站长需要在每个页面的 HTML 代码中收录以下自动推送 JS 代码:
如果站长使用PHP语言开发的网站,可以按照以下步骤操作:
1、创建一个名为“baidu_js_push.php”的文件,文件内容为上述自动推送JS代码;
2、在每个 PHP 模板页面文件的标记后添加一行代码:
为什么自动推送推送页面到百度搜索可以更快?
基于自动推送的实现原理,每次浏览新页面,页面URL都会自动推送到百度,无需站长聚合URL再进行API推送操作。
推送动作由用户的浏览行为触发,节省站长手动操作的时间。
自动推送和 API 推送有什么区别?
网站 已经在普通 收录 提交中使用 API 推送(或站点地图),我需要部署自动推送代码吗?
两者不冲突,相得益彰。已经使用API推送的站点仍然可以部署自动推送的JS代码,两者可以一起使用。
什么样的网站更适合使用自动推送?
由于实现方便,后续维护成本低,自动推送适用于技术能力相对较弱,无法支持全天候实时主动推送方案的站长。
站长只需要部署一次自动推送JS代码的操作,新的页面一看到就可以推送,链接自动提交,成本低。
同时我们也支持API推送和自动推送代码的使用,互不影响。