网站调用新浪微博内容(单从学习的角度，无论是微博模拟登陆还是抓取并且解析微博数据)

优采云发布时间: 2021-11-22 03:03

　　从学习的角度来看，无论是微博模拟登录，还是抓取分析微博数据，难度都比普通爬虫高很多。模拟登录的难度题目已经掌握。如果你已经成功登录并抓取微博分析返回的数据，你会遇到很多问题。最明显的问题就是你在浏览器看到的数据是在网页源码上搜索的，但是找不到，因为传的是真实数据

　　FM.view\((.*)\)

　　这个正则表达式被包装了。

　　模拟登录，这对一些学生来说应该是困难的。更复杂的其实是如何让数据更全面。比如微博的用户包括很多类别，比如普通用户的域名是100505，作家的域名是100305，企业账号的域名是100206。我想很多爬虫粗略的处理成100505。比如，当您在微博上查看更多评论时，有时可以通过下拉获得更多评论数据，有时您可以点击“查看更多”。要获得更多评论，这还需要仔细研究才能使数据完整。用户首页所有微博的爬取都会有一些坑，需要做很多测试。当然，我说的都是PC端的东西。移动端的登录和解析难度要低很多。当然，它的缺点也很明显，就是信息不全。

　　所以，下面是重点：我开源了一个分布式微博爬虫，目前有几个用户，反馈很好。无论你是学习爬虫，还是需要微博数据，我想都能帮到你。该项目没有使用scrapy-redis，而是使用celery作为任务调度。而且网上分享的分布式爬虫几乎都看过，没用过celery！因为他们的爬虫任务可能比较简单，这个项目的爬虫任务比较复杂，几乎涵盖了你能想到的所有数据和微博的爬取，所以从任务优先级和耗时来看，任务路由是几乎是必要的。这也是我选择celery进行分布式任务调度的一个非常重要的因素。

　　以下是项目地址：ResolveWang/WeiboSpider

　　欢迎大佬来砌砖，小白问一下项目的一些问题

0

2021-11-22

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站调用新浪微博内容(单从学习的角度，无论是微博模拟登陆还是抓取并且解析微博数据)

0 个评论

发起人

AI时代内容工厂

网站调用新浪微博内容(单从学习的角度，无论是微博模拟登陆还是抓取并且解析微博数据)

0 个评论

发起人

相关问题