如何使用爬虫工具采集数据

优采云 发布时间: 2020-08-25 20:36

  如何使用爬虫工具采集数据

  

  (图2)

  图2是java程序使用webmagic框架开发的爬虫程序,这段代码就是抓取对应的标签,和图1是相对应的,运行后得到结果如下:

  

  当然,以上是专业程序员干的事情,但是有助于我们理解爬虫工具工作的原理。非专业人员可以通过爬虫工具来自己爬取数据。

  1.首先输入你要爬取的网站的网址,点击“开始采集”。

  

  2.工具手动辨识到当前页面是多页数据,会默认翻页采集,我们只要点击“生成采集设置”即可。

  

  3.点击要采集的详尽链接,这里我们要采集这个网站上所有的化工产品的信息,所以点击英文名称这一列某个链接,再点击一侧“点击该链接”,如右图

  

  4.爬虫工具步入到详尽链接的页面,这个页面的数据也就是我们要爬取的,点击“生成采集设置”,会生成爬虫工具最后的爬取流程,如下图所示,爬虫工具都会根据这个流程给我们采集数据,直到数据采集完成。

  

  

  5.点击“采集”按钮,爬虫工具即将开始运行,爬虫工具工作时如下:

  

  列表的那些数据都是爬虫采集到的,我们还可以对那些采集的数据做处理,可以选择导成Excel文档,或者直接导出数据库,这些是后续剖析数据,对数据做进一步处理的必要条件。有了这种基础数据,可以对数据做剖析,得出一些商业根据,可以作为商业决策时的支撑。比如曾经家乐福就通过她们的大数据,发现买尿布的奶爸喜欢一起买饮料,于是就把尿布和饮料摆在一起,啤酒的销量大增,这个就是大数据的价值。

  这次讲的爬虫工具使用,只是比较基础的应用,希望对你们有帮助。科技惠威带你徜徉科技,后续会不断更新相关知识,欢迎关注。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线