网站自动采集系统(网站自动采集系统|user-agent-secret.这个代号就是你的)
优采云 发布时间: 2022-04-04 01:03网站自动采集系统(网站自动采集系统|user-agent-secret.这个代号就是你的)
网站自动采集系统|user-agent-secret
因为网站常年维护更新,最近长时间不回复的一些客户纷纷找我。但是我一般都是采用sitemappushmessage的方式来解决。
ua其实很简单,比如你登陆一个官网,那么不管它是个人主页,新闻资讯,还是商城,发起访问,都会有一个代号,这个代号就是你的ua.这个ua代号就是你所要爬的网站。
采集者一般会将这类ua注册后标识到他们自己所爬取的网站上,标识到网站之后,访问者再次访问这个网站就会自动检测用户ua并带上去,这个时候此页面中其他人填写的ua才会被爬取,并返回给爬取者。比如以上这个:“首页”+“我”=>“微信”+“小伙伴”,那么用户点击下面链接后,每次页面更新都会带上此ua并记录下来。
然后再去官网爬虫抓取ua时,抓取的信息依然能够被这些用户点击带入到网站上,并被继续存在。这样的话就不存在爬取者登陆官网后把爬取者的ua标识了一下就爬下来等着访问的情况了。除非你的官网太烂,让爬取者每次都不检测页面更新而继续爬取。如果一个ip登陆一个官网,每次检测的ua都不同,那就一点用也没有了。爬取者这时如果不不去用爬取者的ua来执行检测,那么爬取者这一项就永远会被判定为爬取者。
爬取者会死掉。所以应该及时给爬取者(爬取者帐号对应的ua)发一封邮件或者手机短信/访问者手机号码。告诉爬取者你的检测信息是否已经发出。特别是那些登陆和没登陆的,发一封ua都不一样的邮件更能被爬取者检测到。