新浪微博内容数据采集爬虫如何写

优采云发布时间: 2020-08-12 12:31

　　在不同的峰会和问答中，经常会遇见新浪微博的数据采集爬虫程序如何写，或是早已完成了某部份前面须要协助帮助如何做，楚江数据结合网上资料整理了几个微博爬虫开源项目。

　　SinaSpider-基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。数据库设置Information、Tweets、Follows、Fans四张表。爬虫框架使用Scrapy，使用scrapy_redis和Redis实现分布式。此项目实现将单机的新浪微博爬虫重构成分布式爬虫。

　　sina_reptile-这是一个关于sina微博的爬虫，采用python开发，并更改了其sdk中的bug，采用mongodb储存，实现了多进程爬取任务。获取新浪微博1000w用户的基本信息和每位爬取用户近来发表的50条微博,使用python编撰，多进程爬取，将数据储存在了mongodb中

　　sina_weibo_crawler-基于urlib2及beautifulSoup实现的微博爬虫系统。利用urllib2加beautifulsoup爬取新浪微博,数据库采用mongodb，原创关系以txt文件储存，原创内容以csv方式储存，后期直接插入mongodb数据库

　　sina-weibo-crawler-方便扩充的新浪微博爬虫。WCrawler.crawl()函数只须要一个url参数，返回的用户粉丝、关注上面都有url，可以向外扩充爬取，并且也可以自定义一些过滤规则。

　　weibo_crawler-基于Python、BeautifulSoup、mysql微博搜索结果爬取工具。本工具使用模拟登陆来实现微博搜索结果的爬取。

　　SinaMicroblog_Creeper-Spider_VerificationCode-新浪微博爬虫，获得每位用户和关注的，粉丝的用户id存入xml文件中，BFS，可以模拟登录，模拟登录中的验证码会抓取出来使用户输入。

　　不过在这之前，一些功能和句型药了解，比如list，dict，切片，条件判定，文件读写操作等；

　　网页的基本知识，分析语言能力要具备；开发者工具会熟练运用；

0

2020-08-12

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

新浪微博内容数据采集爬虫如何写

0 个评论

发起人

AI时代内容工厂

新浪微博内容数据采集爬虫如何写

0 个评论

发起人

相关问题