js 爬虫抓取网页数据(从爬虫抓取到索引期间到底经过了哪些步骤，为什么网页但不收录？)

优采云发布时间: 2022-04-13 23:16

　　从爬取到索引的步骤是什么，为什么是网页爬取而不是收录？今天我就结合SEO数据，说说为什么你的页面爬虫爬了1000次，却不是收录！

　　从之前优化的页面中取出一个案例详情页面（/35950345.html），我将描述普通页面收录的路径：

　　99高级爬虫抓取IP段：111.206.221.27————111.206.198.125Finally完成收录，抓取IP段：220.181.108.99 Advanced UA的IP：111.206.221.27————111.206. 198.125（截图时间）注：由于页面涉及到加密JS，所以多一步：百度高级蜘蛛解密; 还说明了三层目录的详情页，后台主动提交页面即可快速完成收录（页面内容可能为采集内容）@1.108.99 高级UA的IP：111.206.221.27————111.206. 198.125（快照时间）注意：由于页面涉及到加密JS，所以多一步：百度高级蜘蛛解密；还说明了三层目录的详情页，后台主动提交页面即可快速完成收录（页面内容可能为采集内容）@1.108.99 高级UA的IP：111.206.221.27————111.206. 198.125（快照时间）注意：由于页面涉及到加密JS，所以多一步：百度高级蜘蛛解密；还说明了三层目录的详情页，后台主动提交页面即可快速完成收录（页面内容可能为采集内容）

　　如果不了解爬虫蜘蛛的UA和IP段，可以看看国内主流搜索引擎的UA和对应的蜘蛛IP段。

　　说完了正例，再来说说为什么页面还是爬不上1000次收录，我们先来看下面的优化案例： URLpathname:/news/t-35950346.html

　　二级目录文章详情页，内链非常丰富，百度蜘蛛总共爬取816次（平均每天100次），IP段和爬取路径没有问题，但是结果不是收录@ >。

　　爬虫爬到收录的日志分析

　　问题分析一：把标题放在百度上搜索，搜索结果都是网站内详情页链接的锚文本，但是在内容页找不到锚文本，所以打开百度快照，问题部分解决

　　分析结果1：由于爬虫第一次爬取的内容与第二次爬取的内容页面不一致（多见于网站detail页面，内部链接数不足），可以查看PC页面与M站页面收录综合对比（PC收录，M站不接受）。

　　解决方案一：优化内部链接以匹配站点内的更新频率（有时可能需要更改子目录，常用于大型站点）

　　--------------华丽的分割线-------------

　　问题分析2：同样的问题，如果没有页面不一致，分析高级爬虫UA看页面是否收录动态参数或者JS渲染隐藏数据，导致页面不一致，可以通过请求数据的大小来判断

　　分析结果2：看页面JS对页面主要内容的具体影响。动态 URL 参数优化同样重要。PC端和M端数据分开比较也比较好。

　　方案二：优化页面JS或者爬虫显示优化。

　　大展页面不收录详细分析——也有可能出现问题：页面主要内容的布局，内容的可读性。

　　如果觉得有点难，可以看一个简单的逻辑分析：蜘蛛爬还是不爬收录原因

0

2022-04-13

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 爬虫抓取网页数据(从爬虫抓取到索引期间到底经过了哪些步骤，为什么网页但不收录？)

0 个评论

发起人

AI时代内容工厂

js 爬虫抓取网页数据(从爬虫抓取到索引期间到底经过了哪些步骤，为什么网页但不收录？)

0 个评论

发起人

相关问题