使用新浪微博开放平台api同步微博内容至自己网站(java版新浪微博爬虫与具体语言无关的无关困难?)
优采云 发布时间: 2021-09-01 06:00使用新浪微博开放平台api同步微博内容至自己网站(java版新浪微博爬虫与具体语言无关的无关困难?)
正好在读*敏*感*词*的时候,为了完成这个课题,我写了一个Java版的新浪微博爬虫。现在说说题目和具体语言无关的一些难点。
1.login,这是编写这个爬虫的唯一也是最大的难点。当时(2013年10月),新浪微博的登录会采用base64加密用户名和rsa2加密,登录过程比较复杂。经过几次转发请求,都被javascript控制了,具体流程忘记了,但是我想说的是,我努力研究的模拟登录很快就没有了。我正在抓取数据 1 我已经能够登录一个月了。爬了差不多4个月的数据,还是登陆不上,具体原因我没研究过。看来新浪微博已经改版了,看起来像新浪微博。微博登录经常修改。
2.访问频率控制,我的访问频率控制在每秒5次(即每秒只发送5个请求到新浪微博服务器)。即便如此,ip仍然会被阻塞,请求不会被阻塞。有数据的情况下,使用代理IP。
3.你一直在访问某个大V的微博数据,即使你手动用鼠标点击访问,如果你在短时间内浏览了11个页面(看起来像这个数字,记不清了),每页应该有45个条目,这会限制您的访问。
总之,新浪微博的反爬虫非常好,抓到点乐趣也无妨。我的爬虫终于抓到了超过5000万条数据,每个大V的数据高达11*45条。 .