网站调用新浪微博内容(单从学习的角度,无论是微博模拟登陆还是抓取并且解析微博数据)
优采云 发布时间: 2022-02-10 00:21网站调用新浪微博内容(单从学习的角度,无论是微博模拟登陆还是抓取并且解析微博数据)
单从学习的角度来看,无论是模拟登录微博,还是抓取解析微博数据,难度都远高于一般爬虫。模拟登录的困难已经体验过了。如果登录成功后抓取微博,解析返回的数据,会遇到很多问题。最明显的问题是,你在浏览器中看到的数据可以从网页的源代码中搜索到,但是找不到,因为它的真实数据是经过传递的。
FM.view\((.*)\)
这个正则表达式将它包装起来。
模拟登录,这对一些学生来说应该是困难的。更复杂的是如何全面获取数据。比如微博用户包括很多类别,比如普通用户100505域,作家100305域,企业账号100206域。很多爬虫粗略处理为100505。比如在微博上查看更多评论时,有时你可以下拉获取更多评论数据,有时还可以通过点击“查看更多”来获取更多评论,这也需要非常详细的研究才能获取完整的数据。而it之类的,还有用户首页所有微博的爬取等等,都会有一些坑,需要做很多测试。当然,我说的都是PC端的东西。移动端的登录和解析难度要小得多。当然,它的缺点也很明显,就是信息不全。
所以,重点来了:我开源了一个分布式微博爬虫,目前用户不多,反馈不错。无论你是学习爬虫还是需要微博数据,我想都能帮到你。项目没有使用scrapy-redis,而是使用celery作为任务调度。而且我看到网上分享的几乎所有分布式爬虫都没用过celery!因为他们的爬取任务可能比较简单,所以这个项目的爬取任务比较复杂,几乎涵盖了你能想到的所有微博相关数据的抓取,所以从任务优先级和耗时来看,任务路由是几乎是必须的。这也是我选择celery作为分布式任务调度的一个非常重要的因素。
以下为项目地址:ResolveWang/WeiboSpider
欢迎来到拍砖,小白就项目提出一些问题