数据分析(一)数据采集(优采云采集器)
优采云 发布时间: 2022-06-25 10:18这是一个免费在线生成词云图的网站,且支持图片下载,很方便
3.采集数据的网站链家二手房官网:
这是我经过筛选后的网址,直接打开就行
three进入正题~~~微词云操作
1.打开微词云,点击"开始创建"
2.选择形状、内容
step1.点击形状,选择自己想要的图形;
step2.点击内容,打开导入下拉框,选择大文本分词导入
three进入正题~~~优采云采集器采集数据
下面说一下微词云上的内容从哪里怎么来的。(PS:再次提醒下我们今天的目标:采集上海市徐汇区二手房各区域的单价以及房子的特点信息。然后根据区域信息做一个词云图,进行可视化展示。)
1.打开优采云采集器,开始采集
2.地址输入链家二手房,搜索"徐汇区"的网址,然后点击立即创建
(上图红框里的按钮,可以筛选字段,清空内容,任意添加想采集的字段,这里不赘述,可自行研究)
3.开始采集
此处我们就采集150条数据,点击停止,然后导出数据
以下为导出数据部分截图:
到此为止,优采云采集器采集数据基本完成。
对了,补充一下,在自动采集时可能会出现广告,红包弹框之类的,可以采取下面的方法:
4.采集结果数据处理
step1.下面处理下要到微词云里面展示的字段,我们选择positionInfo列,将其复制到另一个sheet页
step2.选择数据》分列,下一步
step3.根据内容选择分隔符号,将数据分离
step4.选择C列复制到word里面,然后从word复制到微词云的文章输入里。即可完成。以下是我做的一个图:
大家可以尝试下,今天就到这里。这是最初级的数据采集和展示,要想采集更多数据,需要用到python,等学完python再来更新吧。