如何爬取新浪网新闻数据,通过词云可视化展示新闻关键词
优采云 发布时间: 2021-06-19 02:21如何爬取新浪网新闻数据,通过词云可视化展示新闻关键词
今天教大家爬取新浪新闻数据,通过词云可视化展示新闻关键词,快速了解最新的新闻热点。这里抓取**2500**条新闻数据进行演示。  PS:这里采集主要是国内最新的新闻数据。先来看看数据:#1、网站分析新闻数据源(新浪网)采集````` ` ###下一页分析我们要采集多条数据,所以需要找到下一页的模式 当我点击第二页时,发现网页链接没有变化。这里的数据是异步加载的,所以查了一下网络,找到了目标异步链接:``````但是发现callback=feedCardJsonpCallback&_= 54,可以去掉,所以最后的链接如下:``` ```参数page为页数。经测试,页面范围为1~125。当它达到 126 时,它请求空数据。每页一共20条,所以一共有**2500**条新闻数据。
### json 数据结构 这里我们得到三个字段(标题标题,原标题介绍,关键词keywords)#2、采集数据 今天教大家如何爬取新浪新闻数据,通过词云可视化新闻关键词,快速了解最新的新闻热点。这里抓取**2500**条新闻数据进行演示。  PS:这里采集主要是国内最新的新闻数据。先来看看数据:#1、网站分析新闻数据源(新浪网)采集````` ` ###下一页分析我们要采集多条数据,所以需要找到下一页的模式 当我点击第二页时,发现网页链接没有变化。这里的数据是异步加载的,所以查了一下网络,找到了目标异步链接:``````但是发现callback=feedCardJsonpCallback&_= 54,可以去掉,所以最后的链接如下:``` ```参数page为页数。经测试,页面范围为1~125。到126时,请求空数据。
每页总共有 20 个条目,所以总共有 **2500** 条新闻数据。 ### json 数据结构 这里我们得到三个字段(标题标题,原创标题介绍,关键词keywords)#2、采集数据###采集分析第一页后,开始在下面python中编程采集data。 ```url=";lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8"``` 这是第一个页面数据已经可以成功采集,只需将页面值更改为采集下一页数据即可。然后开始在excel中存储采集数据。 ###保存数据这里使用openxl库保存excel中的数据,先定义头```outwb = openpyxl.Workbook()```然后写入excel ```count = 2`` `! [](~tplv-k3u1fbpfcp-zoom-1.image)#3、词云可视化这里我们主要绘制三个词云可视化(有标题,原标题和关键词分布作为数据画图)。
标题是原标题的精简版,关键词是这个文章关键词的核心,通过绘制这三个词云图,然后进行对比分析。读取数据```datafile = u'news data-Li Yunchen.xls'```###标题词云可视化```###标题词云图```### 原标题词云可视化 在绘制词云图之前,先对数据进行处理(比如去掉“原标题:”)```###原标题词云图```### 关键词词云视化```###关键词词云图``` **分析:**三词云图时事热点相似,核心点是“新冠肺炎” ”、“案例”和“北京”。 “与外交国家等的情况”。具体的我就不多说了。通过词云图可以一目了然地了解当前国内的核心热点关键词。 #4、小结 为方便大家,陈哥上传了本文**完整源码**,需要同名公众回复:**新闻** 这篇文章解释了采集的获取方式芭网新闻数据及画词云图展示分析。
###采集分析第一页后,我们开始用python编程采集data。 ```url=";lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8"``` 这是第一个页面数据已经可以成功采集,只需将页面值更改为采集下一页数据即可。然后开始在excel中存储采集数据。 ###保存数据这里使用openxl库保存excel中的数据,先定义头```outwb = openpyxl.Workbook()```然后写入excel ```count = 2`` `! [](~tplv-k3u1fbpfcp-zoom-1.image)#3、词云可视化这里我们主要绘制三个词云可视化(有标题,原标题和关键词分布作为数据画图)。标题是原标题的精简版,关键词是这个文章关键词的核心,通过绘制这三个词云图,然后进行对比分析。
读取数据```datafile = u'news data-Li Yunchen.xls'```###标题词云可视化```###标题词云图```###原标题词云可视化在绘制词云图之前,先对数据进行处理(例如“原标题:”去掉)! [](~tplv-k3u1fbpfcp-zoom-1.image)```###原标题词云图```###关键词词云视化```###关键词词云图``` **解析:**三者的时事热点词云图类似,核心点是“新冠肺炎”、“病例”、“北京”、“与外交国家的情况等”。我不会说太多。通过词云图可以一目了然地了解当前国内的核心热点关键词。 #4、小结 为方便大家,陈哥上传了本文**完整源码**,需要同名公众回复:**新闻** 这篇文章解释了采集的获取方式芭网新闻数据及画词云图展示分析。