操作方法:实战运行手册——爬虫工具之三:ParseHub
优采云 发布时间: 2022-11-25 04:20操作方法:实战运行手册——爬虫工具之三:ParseHub
任何项目的开展都需要数据的支持,数据采集的准确性直接关系到数据分析结果的价值,而从各个网站采集数据(web scraping)是一项非常繁琐的工作。
由于工作原因,我会继续尝试一些爬虫工具,后面会出一系列的“爬虫工具”,尽量找那些比较简单易用高效的小工具,说说它们的特点,以及用截图做实战演示。
本期为ParseHub,主要用于爬取Web上各类数据。
地址:
下面是操作步骤的简单演示
第一步:点击下载安装地址
(选择对应的系统版本)
第二步:注册账号
" />
第三步:下载安装完成,登录ParseHub 第四步:开始使用
点击新建项目
进入后如下图,右侧是抓取网页的缩略图展示,左侧是被缩略的页面元素列表,可以点击左侧的列表项进行关注向上操作
比如这个看电影的网站可以选择电影名称、电影播放时间和海报进行抓取
下面你可以选择你要爬取的数据的格式
单击获取数据按钮
点击运行开始爬取数据
" />
数据爬取
抓取完成
选择需要的数据类型,这里选择json,将数据保存到本地
打开可以看到爬取的数据
以上是我个人用ParseHub制作的数据爬取截图示例,希望对大家有所帮助。
我个人对这款产品的技术特点的理解总结如下:
ParseHub是一款强大免费的网络爬虫工具,类似于国内的优采云
采集器等,它使用机器学习关系引擎过滤页面,理解元素的层次结构,秒查看它爬取数百万的数据确保我们拥有成千上万的链接和关键字全景的网页;不懂网络技术也能轻松采集数据,一键获取数据;本工具可以支持对采集到的数据进行实时预览,还可以设置爬取时间,保证采集到最新的数据;ParseHub 最大的优势是可以爬取一些相对复杂的页面和元素,例如,你可以用它来检索表单、菜单、登陆页面,甚至可以点击图片或地图来获取它们背后的更多数据;有时,待抓取的目标页面技术太落后,别着急!无论是JS还是AJAX编写的页面,都可以使用ParseHub来采集
和存储数据;我们还可以使用 REST API 以 JSON 或 CSV 格式下载提取的数据,或者将采集
的数据导出到 Google Sheet、Tableau 等。
操作方法:优采云
采集规则基本步骤介绍:循环
循环
1)该步骤用于重复一系列步骤,根据不同的配置支持多种模式。
循环固定单个元素,比如循环点击每一页的下一页按钮;
1)循环固定列表,比如循环遍历页面中指定的多个元素;
2)循环变量列表,当需要循环多个页面,但每页处理的元素个数不固定时使用;
3)循环URL列表,主要用于循环打开一批指定URL的网页,然后执行相同的处理步骤。
循环步骤注意事项
" />
1)元素在IFRAME中
如果循环中设置的元素在IFRAME中,请勾选此选项,并在后面的IFAMEXPah中填写IFRAME的XPATH
4) IFAMEX路径
元素所在的IFRAME的路径,只有勾选'Element in IFRAME'时该设置才会生效。
5) 修复了一个元素
循环对某个元素进行特定的操作,比如循环点击下一页,向下滚动下拉列表等,当翻到最后一页或下拉列表到达最后一项时,当前循环自动结束.
6) 固定元素列表
对列表中的元素一一进行具体操作,如循环点击、提取数据、将鼠标悬停在元素上等。当所有元素循环完毕后,本次循环自动结束。
" />
7)动态元素列表
当元素列表不固定时,可以指定一个动态路径(多个元素符合这个路径,即可以根据这个路径定位多个元素),系统会先根据指定的路径找到一个元素列表,然后执行“固定”路径 Element List' 做同样的事情。
8) 网址列表
结合打开网页的操作,指定一个URL列表,并确保在循环打开网页的操作中勾选当前循环项标志的使用,从而打开URL列表中的连接一个。
9) 循环执行次数等于
执行指定次数后退出循环。
更多 优采云
采集
步骤