搜索引擎如何抓取网页(百度蜘如何抓取小程序网页的技术技术实现方法?)
优采云 发布时间: 2022-01-08 22:11搜索引擎如何抓取网页(百度蜘如何抓取小程序网页的技术技术实现方法?)
百度为小程序开发者提供了通过sitemap主动提交小程序页面的方法,也采用技术手段主动抓取小程序页面。闫斌在百度小程序公开课上详细分享了百度搜索引擎蜘蛛爬行。小程序网页的技术实现方法。
百度蜘蛛如何爬取小程序网页
站点地图这个词对于曾经是网站管理员的人来说并不陌生。站点地图是指我目前网站可以被搜索引擎和收录抓取哪些资源,可以让爬虫做针对性的抓取。
如果我们想让百度搜索引擎去到收录小程序的内容,我们需要在小程序的后台提交小程序的站点地图。
我们约定sitemap格式为TXT格式,文件中每一行都是小程序的一个页面URI,URI中收录的小程序路径+查询由两部分组成。举个例子,比如我们的业务订单的详情页,那么它的路径是pages,它的参数是一个ID等于订单号的形式。
我们会根据开发者提交的sitemap自动完成小程序的网页版,从而生成网页版供蜘蛛抓取。这里有一点需要强调。我们可能会遇到一些相同的小程序路径会承载大量页面的场景。
比如贴吧的帖子详情页、糯米店铺页、爱奇艺的视频播放页,这些类型的页面可能是同一个小程序对应的海量页面资源。我们建议开发者提交尽可能多的页面资源供我们抓取和学习。
同时,我们也推荐通过在线脚本开发站点地图。站点地图有每日配额。我们规定每个小程序的每日配额为 50,000 个库存页面和 3,000 兆的增量页面。
先说一个特殊的场景。我将以爱奇艺为例。爱奇艺的视频播放页面有小程序版和H5版,所以在这两个版本之间,都是使用视频ID。,但是两组视频ID不一致,也就是说,虽然爱奇艺可以根据一些规则转换视频ID,但是对于我们(百度蜘蛛)来说,这两组视频ID在字符串级别是不一致的。
根据前面的规则,我们无法正常配置小程序到H5规则。在这种情况下我们应该怎么做?我们给开发者的建议如下:我们在提交站点地图的时候,同时编写小程序的站点地图和H5的站点地图。
比如爱奇艺视频播放页面的page/video...。ID为小程序的视频ID,VID为H5为视频ID。这样既可以保证网页版小程序可以正常显示,又可以保证收录指向正确的爱奇艺视频页面。
这种形式的sitemap是开发者主动提交的,我们的爬虫也会根据小程序的首页主动发现。然后我们将对基于Web的小程序进行一些特殊的优雅处理。
因为Web小程序是单页面网站,所以没有锚点这样的信息,那么我们会在页面的可点击区域添加一个具体的类来模拟点击,模拟点击触发的跳转行为,以及通过爬虫注入的全局函数上报页面的URL,供爬虫采集和跟进收录。
同时,我们也优化了爬虫环境中的登录逻辑。默认情况下,我们在小程序中使用访问者模式,不会因为页面跳转而影响爬虫的爬取行为。