解决方案:数据分析(一)数据采集(优采云采集器)
优采云 发布时间: 2022-10-01 11:13这是一个免费在线生成词云图的网站,且支持图片下载,很方便
3.采集数据的网站链家二手房官网:
这是我经过筛选后的网址,直接打开就行
three进入正题~~~微词云操作
1.打开微词云,点击"开始创建"
2.选择形状、内容
step1.点击形状,选择自己想要的图形;
step2.点击内容,打开导入下拉框,选择大文本分词导入
three进入正题~~~优采云采集器采集数据
下面说一下微词云上的内容从哪里怎么来的。(PS:再次提醒下我们今天的目标:采集上海市徐汇区二手房各区域的单价以及房子的特点信息。然后根据区域信息做一个词云图,进行可视化展示。)
1.打开优采云采集器,开始采集
2.地址输入链家二手房,搜索"徐汇区"的网址,然后点击立即创建
(上图红框里的按钮,可以筛选字段,清空内容,任意添加想采集的字段,这里不赘述,可自行研究)
3.开始采集
此处我们就采集150条数据,点击停止,然后导出数据
以下为导出数据部分截图:
到此为止,优采云采集器采集数据基本完成。
对了,补充一下,在自动采集时可能会出现广告,红包弹框之类的,可以采取下面的方法:
4.采集结果数据处理
step1.下面处理下要到微词云里面展示的字段,我们选择positionInfo列,将其复制到另一个sheet页
step2.选择数据》分列,下一步
step3.根据内容选择分隔符号,将数据分离
step4.选择C列复制到word里面,然后从word复制到微词云的文章输入里。即可完成。以下是我做的一个图:
大家可以尝试下,今天就到这里。这是最初级的数据采集和展示,要想采集更多数据,需要用到python,等学完python再来更新吧。
常用的方法:爬虫方法_优采云采集器
常用爬虫软件
优采云采集器
简单易学,通过可视化界面,鼠标点击采集数据,向导模式,用户无需任何技术基础,输入网址,一键提取数据。
这是我接触的第一个爬虫软件,
优势:
1-使用过程简单,上手很好。
缺点:
1- *敏*感*词*数量限制。采集 中的数据只能由非会员导出,限制为 1000。
2- 导出格式限制。非会员只能导出txt文本格式。
2- 优采云
无需学习爬虫编程技术,简单三步即可轻松抓取网页数据,支持多种格式一键导出,快速导入数据库
在优采云不能满足我的需求后,我开始尝试更专业的采集软件,发现优采云。
优势:
1- 采集 功能更强大,可以自定义采集 进程。
2-导出格式和数据量没有限制。
缺点:
1-过程有点复杂,初学者学习难度较大。
3- 优采云采集器(推荐)
智能识别数据,小白神器
基于人工智能算法,只需输入网址即可智能识别列表数据、表格数据和分页按钮。无需配置任何采集规则,一键式采集即可。自动识别列表、表格、链接、图片、价格、电子邮件等。
这是我现在使用的 采集 软件。可以说是中和了前两个采集器的优缺点,体验更好。
优势:
1-自动识别页面信息,轻松上手
2-导出格式和数据量没有限制
目前还没有发现缺点。
3- 爬虫操作流程
注意,注意,接下来就是动手部分了。
我们以“窗帘选择文章”为例,用“优采云采集器”体验爬虫的乐趣。
采集之后的效果如下:
1- 复制 采集 的链接
打开窗帘官网,点击“精选”进入选中页面文章。
复制特色页面的 URL:
2- 优采云采集数据
1- 登录“优采云采集器”官网,下载安装采集器。
2- 打开采集器后,点击“智能模式”中的“开始采集”创建一个新的智能采集。
3-粘贴窗帘选择的网址,点击立即创建
在这个过程中,采集器会自动识别页面上的列表和数据内容。整个过程由AI算法自动完成,等待识别完成。
页面分析识别↑
页面识别完成↑
4- 点击“开始采集”->“开始”开始爬虫之旅。
3- 采集数据导出
在数据爬取过程中,您可以点击“停止”结束数据爬取。
或者等待数据抓取完成,在弹出的对话框中点击“导出数据”。
导出格式,选择 Excel,然后导出。
4- 使用 HYPERLINK 功能添加超链接
打开导出的表,在I列添加HYPERLINK公式,添加超链接,点击打开对应的文章。
公式如下:
=HYPERLINK(B2,"点击查看")
爬虫之旅圆满结束!