如何学习领导讲话 —— 数据抓取+词频分析+可视化 简易流程介绍
优采云 发布时间: 2022-07-22 05:48如何学习领导讲话 —— 数据抓取+词频分析+可视化 简易流程介绍
政府重要领导的讲话内容对规划项目而言是重中之重,今天小王接到一个任务,要好好学习现在所里在做的项目的龙岗区张书记的讲话,如果只是复制粘贴领导讲话,画个重点色,好像真的很无趣,所以爱折腾的小王自己琢磨了一下,做得稍微复杂一点,希望能抛砖引玉,启发大家的思考,并且这里除了1部分(还是可以略过的),其它都是无脑的,不需要你会python。
由于天色已晚,小王只有半个小时写文,这里长话短说,不明白的细节欢迎留言交流。
1、大数据抓取(可略过)
工具:优采云采集器(免费)
采集地址:龙岗区政府网站
采集流程:具体流程见优采云教程
具体流程图如上,简要说就是建立两个翻页循环,一个是循环点击下一页,一个是循环点击进入每一页的每一条内部。如果有不清楚的可以直接查询优采云软件内置教程,有非常详细的介绍,这里没有时间多说。
抓取结束之后,需要进行一个漫长且无趣的清洗,也是非常枯燥无味的,需要比较针对性的文字的朋友可以直接略过这一步,开几个关键网页复制粘贴吧。
完成后得到word文件如图
2、词频提取
工具网页:图悦
将word内容复制至该网址,得到初步分析图(这个图很丑,不要),此时记得按图片右上角四个小按钮中最右边的按钮,导出excel
打开EXCEL获得如图内容,有一些词分的还有问题,需要进一步处理,接下来就可以进入可视化流程了。
这里想多说一点,结合API获取工具或是GIS数据(在以后的文章中会提及)和词频工具,可以做非常有趣的其它分析,比如领导给我一个任务让我找出一个片区里,什么厂最多,是电子厂还是制衣厂,这也可以发挥作用。
总词频可视化
工具网页:Word Art ()
虽然是全英文的但是我想大家都能看得懂
当前显示的这一栏就是输入关键词和词频了
接着在SHAPE里,上传自己处理好边界的PNG图片
后面几栏可以调整颜色等
最后注意在FONTS栏里上传中文字体文件(tff格式)哦
然后按红色按钮生成就行了,然后按打印即可,效果如下
(考虑到项目正在做,该图内容未经过清洗,非最终结果)
我们可以初步得到结论:书记最关心什么?
交通和产业
细节词频分析
工具网站1语义分析系统:
工具网站2纽扣词云:
工具网站1:
功能非常多,比如弦图和关系图
按类别分析
情感分析
工具网站2:
工具网站2对词性有更细节的分析
像这种形时间词、方位词都有较好的应用
至于这些内容到底应该怎么用,就各自见仁见智啦
总结
合理利用数据抓取(网页+API)+词频工具+可视化这一套工具可以做的事很多,难点也不在工具,而在于为什么要用工具,这会直接影响到关键步骤“抓取”和“清洗”,时间有限,这次分享到此为止,欢迎大家在后台留言,以后争取分享更多的内容。
图片|来源各个工具
文案|城市学习者小王