网页抓取数据 免费(这里介绍2个不错的爬虫软件—Excel和优采云)
优采云 发布时间: 2022-01-05 13:12网页抓取数据 免费(这里介绍2个不错的爬虫软件—Excel和优采云)
这里有两个不错的爬虫软件——Excel和优采云。对于常规的静态网页,可以使用Excel进行爬取。对于稍微复杂一点的网页,可以使用优采云进行爬取,下面简单介绍一下这两个软件,主要内容如下:
电子表格
大多数人应该都使用过 Excel。除了日常的数据统计处理,还可以抓取网页数据。下面我简单介绍一下爬取的过程。主要步骤如下。这里以爬取 PM2.5 数据为例:
1.首先新建一个Excel文件并打开,在菜单栏中点击“数据”->“来自网站”,如下:
2. 然后,在弹出的“New Web Query”对话框中,输入需要爬取的网址,点击“Go”,就会加载我们需要爬取的网页,如下:
3. 然后,点击右下角的“导入”按钮,选择工作表或新建一个需要存储数据的工作表,点击“确定”按钮自动导入数据。导入成功后的数据如下:
4.这里,如果需要定时刷新数据,可以点击菜单栏中的“属性”,在弹出的对话框中设置刷新频率来定时刷新数据,如下:
优采云
这是一款专门用于采集数据的爬虫软件。它简单、易学、易掌握。只需要在页面上设置要爬取的元素,就可以自动爬取数据,可以保存为Excel,也可以导出到数据库,如下图简单介绍一下这个软件的安装和使用:
1.下载安装优采云,这个可以直接从官网下载,如下,点击下载安装即可:
2.安装完成后,打开软件,在主页面点击“自定义采集”,如下:
3. 然后在任务页面中输入需要爬取的网页的URL,如下,这里以爬取公众评论数据为例:
4. 点击“保存网址”自动打开网页,如下:
5.接下来我们可以直接选择需要爬取的标签数据,如下,只要按照操作提示一步一步来就可以了,很简单:
6. 设置完成后,直接点击“Start Local 采集”,自动开始爬取数据。爬取成功后的数据如下,也就是我们刚刚设置的标签数据:
7. 这里点击“导出数据”,将抓取到的数据导出为您需要的格式,如下,可以是Excel、CSV、数据库等:
至此,我们就完成了使用Excel和优采云对网页数据的抓取。总的来说,这两个软件使用起来非常简单。只要熟悉相关操作,就能很快掌握。当然也可以用其他爬虫软件,比如优采云等,基本功能和优采云差不多,网上有相关资料和教程。如果你有兴趣,你可以搜索一下。希望以上分享的内容对您有所帮助。也欢迎大家评论留言。