解决方案:城市数据人:*敏*感*词*,图形化开源爬虫Hawk 3发布
优采云 发布时间: 2022-11-21 17:19解决方案:城市数据人:*敏*感*词*,图形化开源爬虫Hawk 3发布
软件名称:鹰3
软件作者:*敏*感*词*(赵一鸣,蚂蚁金服人工智能团队)
软件介绍: 一款轻量级的数据采集软件,采集界面可视化。与市面上其他软件相比,功能相同,但本软件是开源软件,有很多自动功能,比如“手气不错”功能等。作者已经更新到3.0版本。
适用范围:网络数据抓取工作
超级图形爬虫Hawk已经发布两年半了。2015年升级到第二版,收到上千用户反馈(吐槽),100多个红包,一共666元50毛钱~一直想存这个钱。去北方之王天通苑隆德购物中心选购心仪的阿迪王吧!
什么,你不知道霍克是什么?是一款智能强大的网络数据采集工具,完全图形化,无需编程,有些功能强大到作者自己都不会用(这个是真的),下面的文章有更详细的介绍:
鹰1:
鹰2:
鹰星已经突破1300,开源地址如下,记得在全球最大的同*敏*感*词*友网站给沙漠君一个星哦~:
/ferventdesert/鹰
一天晚上,一个神秘人突然加了我微信。知道我是Hawk的设计师后,二话不说就发了200元的红包!在确定对方不是仙跃之后。赶紧谢谢客户师傅,明天可以加鸡腿了!
这位VIP客户和我聊了将近一个小时。对Hawk赞不绝口后,他话锋一转:“你们Hawk的用户体验太差了,界面太丑了,不能优化一下吗?”
我说:好吧,你来提需求,我来改?我们一拍即合!姑且称呼这位神秘人物为盛哥吧(可惜不是女生)
从2017年10月开始,我们开启了你织我缝衣服的模式(好理念)。升哥负责测试,用户体验,提需求;我负责更改代码。不老的沙漠之王还能记得四五年前写的C#代码!老婆和老婆工作忙,我只能周六周日坐在马桶上优化代码,差点搞出前列腺炎!平日里,我们会在地铁和公交车上通过微信讨论各种体验细节。画风如下:
" />
图片.png - 517.5kB
别说像这样几万条聊天记录,我们集思广益,为了更好的体验,更快的算法,挖掘每一个交互细节,在有限的时间内尽可能打磨和优化Hawk产品。后来参加内测的同学越来越多,我也收到了更多的反馈。
时光荏苒,朝鲜改革开放,杭州也即将买房。转眼半年多过去了。经过无数次“不改版本”,多次重大功能更新,200多次体验升级,Hawk3终于问世了!
那么Hawk3到底给嘉宾们带来了哪些惊喜呢?我们专注于Hawk3的增强功能。已有的介绍请参考上一篇文章。
1. 更智能的网页抓取工具
输入网址,点击【手气不错】,Hawk会自动提取所有高价值数据表。与上一代相比,支持智能排序和自定义。您可以通过移动鼠标在多个结果之间来回过滤,点击确定就完成了!
手气不错不仅可以刊登,还支持详情页,只要在链家页面输入任意信息,点击“手气不错”,楼盘的详细信息就出来了!
网页采集
器不仅支持xpath,还可以混合使用选择器语法。搜索关键词还可以实现页面自动定位跳转高亮,智能让你想哭!除了显示html源代码,它还可以在浏览器模式下预览!
2. 更易用的数据清洗
Hawk最引以为豪的功能是:用户可以灵活组合数据清洗任务,先洗菜,再切菜,最后扔进锅里煎,所见即所得。
Hawk3大大提升了用户体验,模仿播放器设计,可以灵活修改任务的各个模块,快进快退!处理数据就像玩海岛大片一样流畅刺激!
" />
多个数据清洗任务可以相互调用,实现更复杂、更高级的功能。新版本为子任务提供了更友好的配置界面,让您可以像编写Python函数一样实现子任务。Hawk调用Python实现自定义处理的功能也得到了增强,并且支持引入一些第三方库,让数据处理更加灵活。
Hawk还大大增强了调试功能。可以实时监控web请求的数量和频率,分析任务中各模块的工作和异常情况,快速判断问题所在。您再也不用担心找不到错误了!
3. 200多个微创新!
对于一款软件来说,增加新功能不是重点,打磨核心功能,用无数细节编织微创新。你会找到:
4. 超快速导出到Excel/数据库
在Hawk早期版本中,大数据导出Excel卡得男的沉默,女的泪流满面。优化后的Excel导出速度提升15倍,轻松导出百万级数据。
更何况Hawk还支持文件级数据库Sqlite,千万级数据毫无压力。完全不需要配置,也不用担心数据太多爆内存!
5.想要自动部署的客官们有福了!
新的 Hawk 支持从 Windows 命令行模式执行,如下所示:
cmd> HawkScheduler project.xml task_name
在Hawk图形界面上设计一个项目,在命令行输入项目名称和任务名称,就可以直接执行任务,更快更轻量,但是记得使用executor将数据导出到数据库或文件!
微软的跨平台策略太弱,让Hawk支持Linux和Mac的成本太高,所以还是只跑Windows。由于更新较多,新的Hawk基本无法支持之前的工程文件。好在重新配置爬虫也不麻烦吧^-^
哎呀,写的太多了,大家可以在使用过程中慢慢发现这些细节和惊喜。
考虑到之前用户的使用习惯,大部分改进都很顺利,只是早期的项目已经不再兼容。界面还是很有工程毒瘤的。说界面丑的妹子欢迎指教~
通过阅读文档和视频,研究教学项目,5分钟上手,半小时成为老司机。你一定迫不及待地问我在哪里下载?点击阅读原文,进入项目首页,下载地址、文档、视频教程,应有尽有!
最近发布:.NET 图形化开源爬虫Hawk 3发布
超级图形爬虫Hawk已经发布两年半了。2015年升级到第二版,收到上千用户反馈(吐槽),100多个红包,一共666元50毛钱~一直想存这个钱。去北方之王天通苑隆德购物中心选购心仪的阿迪王吧!
什么,你不知道霍克是什么?是一款智能强大的网络数据采集工具,完全图形化,无需编程,有些功能强大到作者自己都不会用(这个是真的),下面的文章有更详细的介绍:
鹰1:
鹰2:
鹰星已经突破1300,开源地址如下,记得在全球最大的同*敏*感*词*友网站给沙漠君一个星哦~:
/ferventdesert/鹰
一天晚上,一个神秘人突然加了我微信。知道我是Hawk的设计师后,二话不说就发了200元的红包!在确定对方不是仙跃之后。赶紧谢谢客户师傅,明天可以加鸡腿了!
这位VIP客户和我聊了将近一个小时。对Hawk赞不绝口后,他话锋一转:“你们Hawk的用户体验太差了,界面太丑了,不能优化一下吗?”
我说:好吧,你来提需求,我来改?我们一拍即合!姑且称呼这位神秘人物为盛哥吧(可惜不是女生)
从2017年10月开始,我们开启了你织我缝衣服的模式(好理念)。升哥负责测试,用户体验,提需求;我负责更改代码。不老的沙漠之王还能记得四五年前写的C#代码!老婆和老婆工作忙,我只能周六周日坐在马桶上优化代码,差点搞出前列腺炎!平日里,我们会在地铁和公交车上通过微信讨论各种体验细节。画风如下:
图片.png - 517.5kB
别说像这样几万条聊天记录,我们集思广益,为了更好的体验,更快的算法,挖掘每一个交互细节,在有限的时间内尽可能打磨和优化Hawk产品。后来参加内测的同学越来越多,我也收到了更多的反馈。
" />
时光荏苒,朝鲜改革开放,杭州也即将买房。转眼半年多过去了。经过无数次“不改版本”,多次重大功能更新,200多次体验升级,Hawk3终于问世了!
那么Hawk3到底给嘉宾们带来了哪些惊喜呢?我们专注于Hawk3的增强功能。已有的介绍请参考上一篇文章。
1. 更智能的网页抓取工具
输入网址,点击【手气不错】,Hawk会自动提取所有高价值数据表。与上一代相比,支持智能排序和自定义。您可以通过移动鼠标在多个结果之间来回过滤,点击确定就完成了!
手气不错不仅可以刊登,还支持详情页,只要在链家页面输入任意信息,点击“手气不错”,楼盘的详细信息就出来了!
网页采集
器不仅支持xpath,还可以混合使用选择器语法。搜索关键词还可以实现页面自动定位跳转高亮,智能让你想哭!除了显示html源代码,它还可以在浏览器模式下预览!
2. 更易用的数据清洗
Hawk最引以为豪的功能是:用户可以灵活组合数据清洗任务,先洗菜,再切菜,最后扔进锅里煎,所见即所得。
Hawk3大大提升了用户体验,模仿播放器设计,可以灵活修改任务的各个模块,快进快退!处理数据就像玩海岛大片一样流畅刺激!
多个数据清洗任务可以相互调用,实现更复杂、更高级的功能。新版本为子任务提供了更友好的配置界面,让您可以像编写Python函数一样实现子任务。Hawk调用Python实现自定义处理的功能也得到了增强,并且支持引入一些第三方库,让数据处理更加灵活。
Hawk还大大增强了调试功能。可以实时监控web请求的数量和频率,分析任务中各模块的工作和异常情况,快速判断问题所在。您再也不用担心找不到错误了!
" />
3. 200多个微创新!
对于一款软件来说,增加新功能不是重点,打磨核心功能,用无数细节编织微创新。你会找到:
4. 超快速导出到Excel/数据库
在Hawk早期版本中,大数据导出Excel卡得男的沉默,女的泪流满面。优化后的Excel导出速度提升15倍,轻松导出百万级数据。
更何况Hawk还支持文件级数据库Sqlite,千万级数据毫无压力。完全不需要配置,也不用担心数据太多爆内存!
5.想要自动部署的客官们有福了!
新的 Hawk 支持从 Windows 命令行模式执行,如下所示:
cmd> HawkScheduler project.xml task_name
在Hawk图形界面上设计一个项目,在命令行输入项目名称和任务名称,就可以直接执行任务,更快更轻量,但是记得使用executor将数据导出到数据库或文件!
微软的跨平台策略太弱,让Hawk支持Linux和Mac的成本太高,所以还是只跑Windows。由于更新较多,新的Hawk基本无法支持之前的工程文件。好在重新配置爬虫也不麻烦吧^-^
哎呀,写的太多了,大家可以在使用过程中慢慢发现这些细节和惊喜。
考虑到之前用户的使用习惯,大部分改进都很顺利,只是早期的项目已经不再兼容。界面还是很有工程毒瘤的。说界面丑的妹子欢迎指教~
通过阅读文档和视频,研究教学项目,5分钟上手,半小时成为老司机。你一定迫不及待地问我在哪里下载?点击阅读原文,进入项目首页,下载地址、文档、视频教程,应有尽有!