网页手机号抓取程序(2019年上半年微信发布基于小程序页面的搜索(组图))
优采云 发布时间: 2021-10-12 00:36网页手机号抓取程序(2019年上半年微信发布基于小程序页面的搜索(组图))
2019年上半年,微信发布了基于小程序页面的搜索。为了让我们更好地发现和理解小程序页面,结合过去一段时间我们遇到的各种情况,强烈建议开发者花一些宝贵的时间仔细阅读本文:)
当爬虫访问小程序中的页面时,会携带具体的用户代理“mpcrawler”和场景值:1129
1. 小程序中的重定向页面(url)可以直接打开。
小程序页面中的重定向url是我们爬虫找到页面的重要来源,搜索引擎召回的结果页面(url)必须能够直接打开,不依赖上下文状态。特别:建议url中收录页面需要的参数
2. 导航组件优先用于页面跳转。
小程序提供了两种页面路由方式:
a.navigator 组件
湾 路由API,包括navigateTo/redirectTo/switchTab/navigateBack/reLaunch
推荐使用导航组件。如果非要使用API,可以屏蔽爬虫访问时为点击设置的时间锁或变量锁。
3.清晰简洁的页面参数。
一个结构清晰、简洁、参数有意义的查询字符串对爬取和后续分析很有帮助,但使用JSON数据作为参数的方式实现效果不佳。
4. 仅在必要时要求用户授权、登录、绑定手机号等。
建议仅在必要时请求用户授权(例如,您可以匿名阅读文章,发表评论需要留下您的姓名)。
5. 我们不收录 网络视图中的任何内容。
我们暂时不能这样做,从长远来看,我们也可能做不到。
6. 使用sitemap配置引导爬虫爬取,同时屏蔽没有搜索价值的路径。
7. 设置清晰的标题和页面缩略图。
页面标题和缩略图对我们了解页面和提高曝光转化率很重要。
通过 wx.setNavigationBarTitle 或自定义转发内容 onShareAppMessage 设置页面的标题和缩略图,同时为视频和音频组件补充海报/poster-for-crawler 属性。
8. 使用页面路径推送能力
可以大大丰富微信上可以收录的内容,从而增加小程序内容的曝光机会。请参考: