网站调用新浪微博内容(单从学习的角度，无论是微博模拟登陆还是抓取并且解析微博数据)

优采云发布时间: 2022-02-10 00:21

　　单从学习的角度来看，无论是模拟登录微博，还是抓取解析微博数据，难度都远高于一般爬虫。模拟登录的困难已经体验过了。如果登录成功后抓取微博，解析返回的数据，会遇到很多问题。最明显的问题是，你在浏览器中看到的数据可以从网页的源代码中搜索到，但是找不到，因为它的真实数据是经过传递的。

　　FM.view\((.*)\)

　　这个正则表达式将它包装起来。

　　模拟登录，这对一些学生来说应该是困难的。更复杂的是如何全面获取数据。比如微博用户包括很多类别，比如普通用户100505域，作家100305域，企业账号100206域。很多爬虫粗略处理为100505。比如在微博上查看更多评论时，有时你可以下拉获取更多评论数据，有时还可以通过点击“查看更多”来获取更多评论，这也需要非常详细的研究才能获取完整的数据。而it之类的，还有用户首页所有微博的爬取等等，都会有一些坑，需要做很多测试。当然，我说的都是PC端的东西。移动端的登录和解析难度要小得多。当然，它的缺点也很明显，就是信息不全。

　　所以，重点来了：我开源了一个分布式微博爬虫，目前用户不多，反馈不错。无论你是学习爬虫还是需要微博数据，我想都能帮到你。项目没有使用scrapy-redis，而是使用celery作为任务调度。而且我看到网上分享的几乎所有分布式爬虫都没用过celery！因为他们的爬取任务可能比较简单，所以这个项目的爬取任务比较复杂，几乎涵盖了你能想到的所有微博相关数据的抓取，所以从任务优先级和耗时来看，任务路由是几乎是必须的。这也是我选择celery作为分布式任务调度的一个非常重要的因素。

　　以下为项目地址：ResolveWang/WeiboSpider

　　欢迎来到拍砖，小白就项目提出一些问题

0

2022-02-10

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站调用新浪微博内容(单从学习的角度，无论是微博模拟登陆还是抓取并且解析微博数据)

0 个评论

发起人

AI时代内容工厂

网站调用新浪微博内容(单从学习的角度，无论是微博模拟登陆还是抓取并且解析微博数据)

0 个评论

发起人

相关问题