使用新浪微博开放平台api同步微博内容至自己网站(java版新浪微博爬虫与具体语言无关的无关困难？)

优采云发布时间: 2021-09-01 06:00

　　正好在读*敏*感*词*的时候，为了完成这个课题，我写了一个Java版的新浪微博爬虫。现在说说题目和具体语言无关的一些难点。

　　1.login，这是编写这个爬虫的唯一也是最大的难点。当时（2013年10月），新浪微博的登录会采用base64加密用户名和rsa2加密，登录过程比较复杂。经过几次转发请求，都被javascript控制了，具体流程忘记了，但是我想说的是，我努力研究的模拟登录很快就没有了。我正在抓取数据 1 我已经能够登录一个月了。爬了差不多4个月的数据，还是登陆不上，具体原因我没研究过。看来新浪微博已经改版了，看起来像新浪微博。微博登录经常修改。

　　2.访问频率控制，我的访问频率控制在每秒5次（即每秒只发送5个请求到新浪微博服务器）。即便如此，ip仍然会被阻塞，请求不会被阻塞。有数据的情况下，使用代理IP。

　　3.你一直在访问某个大V的微博数据，即使你手动用鼠标点击访问，如果你在短时间内浏览了11个页面（看起来像这个数字，记不清了），每页应该有45个条目，这会限制您的访问。

　　总之，新浪微博的反爬虫非常好，抓到点乐趣也无妨。我的爬虫终于抓到了超过5000万条数据，每个大V的数据高达11*45条。 .

0

2021-09-01

使用新浪微博开放平台api同步微博内容至自己网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

使用新浪微博开放平台api同步微博内容至自己网站(java版新浪微博爬虫与具体语言无关的无关困难？)

0 个评论

发起人

AI时代内容工厂

使用新浪微博开放平台api同步微博内容至自己网站(java版新浪微博爬虫与具体语言无关的无关困难？)

0 个评论

发起人

相关问题