网站调用新浪微博内容(单从学习的角度,无论是微博模拟登陆还是抓取并且解析微博数据)

优采云 发布时间: 2021-11-22 03:03

  网站调用新浪微博内容(单从学习的角度,无论是微博模拟登陆还是抓取并且解析微博数据)

  从学习的角度来看,无论是微博模拟登录,还是抓取分析微博数据,难度都比普通爬虫高很多。模拟登录的难度题目已经掌握。如果你已经成功登录并抓取微博分析返回的数据,你会遇到很多问题。最明显的问题就是你在浏览器看到的数据是在网页源码上搜索的,但是找不到,因为传的是真实数据

  FM.view\((.*)\)

  这个正则表达式被包装了。

  模拟登录,这对一些学生来说应该是困难的。更复杂的其实是如何让数据更全面。比如微博的用户包括很多类别,比如普通用户的域名是100505,作家的域名是100305,企业账号的域名是100206。我想很多爬虫粗略的处理成100505。比如,当您在微博上查看更多评论时,有时可以通过下拉获得更多评论数据,有时您可以点击“查看更多”。要获得更多评论,这还需要仔细研究才能使数据完整。用户首页所有微博的爬取都会有一些坑,需要做很多测试。当然,我说的都是PC端的东西。移动端的登录和解析难度要低很多。当然,它的缺点也很明显,就是信息不全。

  所以,下面是重点:我开源了一个分布式微博爬虫,目前有几个用户,反馈很好。无论你是学习爬虫,还是需要微博数据,我想都能帮到你。该项目没有使用scrapy-redis,而是使用celery作为任务调度。而且网上分享的分布式爬虫几乎都看过,没用过celery!因为他们的爬虫任务可能比较简单,这个项目的爬虫任务比较复杂,几乎涵盖了你能想到的所有数据和微博的爬取,所以从任务优先级和耗时来看,任务路由是几乎是必要的。这也是我选择celery进行分布式任务调度的一个非常重要的因素。

  以下是项目地址:ResolveWang/WeiboSpider

  欢迎大佬来砌砖,小白问一下项目的一些问题

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线