js 爬虫抓取网页数据(从爬虫抓取到索引期间到底经过了哪些步骤,为什么网页但不收录?)
优采云 发布时间: 2022-04-13 23:16js 爬虫抓取网页数据(从爬虫抓取到索引期间到底经过了哪些步骤,为什么网页但不收录?)
从爬取到索引的步骤是什么,为什么是网页爬取而不是收录?今天我就结合SEO数据,说说为什么你的页面爬虫爬了1000次,却不是收录!
从之前优化的页面中取出一个案例详情页面(/35950345.html),我将描述普通页面收录的路径:
99高级爬虫抓取IP段:111.206.221.27————111.206.198.125Finally完成收录,抓取IP段:220.181.108.99 Advanced UA的IP:111.206.221.27————111.206. 198.125(截图时间) 注:由于页面涉及到加密JS,所以多一步:百度高级蜘蛛解密; 还说明了三层目录的详情页,后台主动提交页面即可快速完成收录(页面内容可能为采集内容)@1.108.99 高级UA的IP:111.206.221.27————111.206. 198.125(快照时间) 注意:由于页面涉及到加密JS,所以多一步:百度高级蜘蛛解密;还说明了三层目录的详情页,后台主动提交页面即可快速完成收录(页面内容可能为采集内容)@1.108.99 高级UA的IP:111.206.221.27————111.206. 198.125(快照时间) 注意:由于页面涉及到加密JS,所以多一步:百度高级蜘蛛解密;还说明了三层目录的详情页,后台主动提交页面即可快速完成收录(页面内容可能为采集内容)
如果不了解爬虫蜘蛛的UA和IP段,可以看看国内主流搜索引擎的UA和对应的蜘蛛IP段。
说完了正例,再来说说为什么页面还是爬不上1000次收录,我们先来看下面的优化案例: URLpathname:/news/t-35950346.html
二级目录文章详情页,内链非常丰富,百度蜘蛛总共爬取816次(平均每天100次),IP段和爬取路径没有问题,但是结果不是 收录@ >。
爬虫爬到收录的日志分析
问题分析一:把标题放在百度上搜索,搜索结果都是网站内详情页链接的锚文本,但是在内容页找不到锚文本,所以打开百度快照,问题部分解决
分析结果1:由于爬虫第一次爬取的内容与第二次爬取的内容页面不一致(多见于网站detail页面,内部链接数不足),可以查看PC页面与M站页面收录综合对比(PC收录,M站不接受)。
解决方案一:优化内部链接以匹配站点内的更新频率(有时可能需要更改子目录,常用于大型站点)
--------------华丽的分割线-------------
问题分析2:同样的问题,如果没有页面不一致,分析高级爬虫UA看页面是否收录动态参数或者JS渲染隐藏数据,导致页面不一致,可以通过请求数据的大小来判断
分析结果2:看页面JS对页面主要内容的具体影响。动态 URL 参数优化同样重要。PC端和M端数据分开比较也比较好。
方案二:优化页面JS或者爬虫显示优化。
大展页面不收录详细分析——也有可能出现问题:页面主要内容的布局,内容的可读性。
如果觉得有点难,可以看一个简单的逻辑分析:蜘蛛爬还是不爬收录原因