微博爬取微博内容采集需要注意的几个方法!

优采云 发布时间: 2021-04-14 06:07

  微博爬取微博内容采集需要注意的几个方法!

  文章采集毕,通过以下接口进行数据抓取。来自微博用户动态的粉丝数是指上一条微博下被多少个用户关注的人数。读取微博文件时,搜集好了地址,会返回到前端。微博详情数据抓取自微博动态搜集好的地址(微博详情)转换成json格式的数据分析难度比较大,因为暂时做不到很细的分析。不过目前开始会尝试利用api来封装一个简单的分析函数。

  感兴趣的朋友可以开始学习一下api。微博内容爬取微博内容采集需要用到和微博爬虫有关的库scrapy,pyspider,pandas。scrapy爬虫的配置比较复杂,做起来不方便。本文侧重总结爬虫中需要注意的方法。1.利用python对数据抓取做好本地配置。scrapy爬虫需要在本地电脑运行,由于本人没有带编辑器,所以本文都是纯手敲的代码。

  文件的pythonscrapy.py代码:1:进入用户列表页2:爬取需要爬取的各个网页3:关闭请求页面按照文件的操作步骤如下:(1)单页爬取,打开页面,单击右键,点击selectscrapy爬虫模块需要输入的id。如下图:pythonscrapy爬虫模块id默认是position,本来按照文件配置,id和spider_id是*敏*感*词*的关系,很方便重复利用。

  但是,需要注意,pythonconf库中的spider_id和python安装目录的id并不匹配,我们默认python主机的python环境是python2.7,在这里确实需要使用python3.5。单击右键,取消选择匹配id进入如下界面,可以设置pythonid,python环境类型,默认python路径,数据抓取方式等。

  参数前面是爬取的页面链接,包含数据采集方式,请求的url.设置爬取的页面链接或者url形式以及获取时的数据采集方式。爬取数据采集方式有三种类型,分别对应三种抓取方式,分别是:非事件型、hash型和事件型。上图中展示的三种,都是默认python环境,每种方式爬取方式和返回的json数据格式是一样的。(2)以事件型爬取方式为例,登录微博后,需要获取微博用户的标签,items中可以获取到标签列表,抓取标签抓取了vid列表,同时还会抓取到标签内容。

  在spider_ids设置下,去掉如link,tag,note等tag,最后会得到标签列表的数据分析。登录微博后,请求cookies数据,在pythonscrapy.items获取登录登录后的cookies,同时也获取到vid列表。按照文件配置的方式写入html文件,最后按照文件分析去抓取页面微博文件。

  2.对爬取的微博文件进行一些处理与字符串分析爬取方式较多,所以我们写了一些配置文件,便于对微博文件进行处理和分析。思路如下图所示。参考百度一下,你就知道爬虫的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线