技巧:魔法工具 | “优采云 ”帮你从网页上扒数据
优采云 发布时间: 2022-11-24 01:10技巧:魔法工具 | “优采云
”帮你从网页上扒数据
美美怎么了?你为什么看起来很悲伤?
忘了它!老板让我把网上的资料整理成excel表格。但是这里的数据量这么大,我要花点时间整理一下。如果使用数据一张一张复制粘贴的方式,会耗费一些时间。但是如果你使用“优采云
collector”,它会在几分钟内完成!
优采云
是一个方便的网页数据采集
器。简单的说,它可以帮助我们从结构化的网页中抓取需要的数据,并以表格的形式导出,供后续处理。该软件目前仅支持Windows系统,使用Mac系列电脑的朋友可以安装虚拟机或者使用双系统。
下载软件并注册账号后,会看到如图所示的界面:
右边是我们的主工作区,优采云
提供了三种使用模式:向导模式、高级模式和智能模式。
向导模式集成了四种常用的采集方式,分别是列表或表格采集、列表和详情采集、URL列表采集和单个网页采集。它们的作用和区别如下:
优采云
设置了一个向导帮助您了解这些获取方式,点击“开始学习”,软件会自动演示流程,您只要按照它的引导即可熟悉相关操作。下面演示列表或表集合的具体过程:
1 设置任务名称
" />
填写任务名称、分组、备注,方便识别。
2设置网址
填写需要采集数据的网页,注意这个网页的内容一定要结构化(即整齐、规整)。
3 设置列表
在网页上点开一个单位的整个信息区,图中*敏*感*词*的是本页“老山东”店铺的完整信息,需要点两三项直到优采云
可以自动捕获下面的所有项目。
4个设置字段
该字段是您要捕获的数据的内容,只需在下面的网页上单击并选择它即可。
5套翻页
顾名思义,设置是否翻页,如果需要翻页,还需要在网页中点击【下一页】让优采云
知道如何翻页。
6 完成并导出
" />
至此,一个采集任务已经配置完成,接下来就可以启动程序运行采集任务了。单机采集是指在本电脑上采集,对所有用户开放。云采集运行在云端。使用云采集不需要电脑将任务配置为在线,即可以关掉电脑等待任务完成,更加方便。不过,云采集
只对终极版用户开放。
采集任务启动后,会弹出如下窗口,可以看到我们需要的数据已经全部采集到一个列表中了。任务完成后,您还可以将结果导出到数据库或文件类型,如 excel 和 csv。
高级模式相对复杂,需要自己设计采集工作流程。结合相应的动作(包括打开网页、点击、循环、条件选择等),可以获得更加优化的个性化采集方式。其实向导模式下的四个类在高级模式下都可以写。
智能模式更简单,你只需要给优采云
一个网址,它就会自动整理出网页上可以抓取的数据。
总的来说,优采云
的操作更加人性化。除了程序内置的几种采集模式外,您还可以在资源市场下载其他用户分享的采集规则来满足您的需求,比如微博评论爬取、论坛帖子采集等。软件本身是免费的并采用积分制。每次导出数据,都会扣除一定的积分。分享数据资源和采集规则可以获得积分。当然,付费升级会更简单地解决这个问题。
美美,老板交代给你的事情,你处理得怎么样了?
太奇妙了!有了这个 优采云
抓取器,它很快就完成了。连老板都没想到我能这么快完成。看来我马上就要升职加薪走上人生巅峰了哈哈哈!
作者|王宇
编辑|戴文斌、甄子丹
教程:优采云
采集器PHP翻译插件分享及详细使用方法
文章目录[隐藏]
2018年1月3日更新:由于百度翻译规则的变化,增加了随机符号和token两个参数进行校验。该插件已过期,无法使用。
最近逛优采云
官方论坛,发现有人分享了一个php优采云
采集
器百度翻译插件。看代码,这个插件是直接请求百度翻译,然后获取百度翻译的结果来实现的。这样做的好处是不需要申请百度翻译API,所以没有翻译数量限制(百度翻译API有免费字数限制,超过免费字数需要收费)。
而且这个php翻译插件使用灵活,只要结合优采云
采集软件的采集规则简单修改代码中需要翻译的参数即可,剩下的直接上启动优采云
网站采集软件。向上。
插件代码
将以上代码保存为PHP文件,放到优采云
数据采集器的插件目录下。文末有插件下载地址,您也可以直接下载使用。
指示
使用方法非常简单。首先将插件的PHP文件放在优采云
数据采集软件安装目录下的Plugins文件夹中,然后根据采集规则和需要翻译的标签修改PHP代码。
修改后的方法如下:
1.修改代码第50行需要翻译的语言,按照注释中的说明进行修改。默认是将中文翻译成英文。其他语言的代码标识见第18-34行的代码说明。
2.修改第86行到第88行需要翻译的标签,默认是翻译“title”、“关键词”、“content”这三个集合标签。一排代表翻译标签。如果需要添加或删除已翻译的标签,只需按照评论中的说明添加或删除即可。
优采云
Collector PHP翻译插件测试结果
3.翻译后的标签名,新建一个对应的标签名即可,规则留空即可。比如上图中,标签“title”就是采集的内容,“translated title”就是翻译后的内容。您只需要在采集规则中创建一个名为“翻译标题”的标签即可。这个标签没有任何需要填写的规则。
预防措施
由于优采云
采集工具本身的PHP环境问题,如果直接运行插件可能会报错或者翻译失败,所以我们需要修改优采云
的PHP网站采集软件。
修改优采云
网站数据抓取软件的PHP环境也很简单。打开优采云
网站数据抓取软件的安装目录“System/PHP”,找到php.ini文件并打开,找到如下代码。
;extension=php_curl.dll
删除前导分号“;” 并保存。
这样优采云
数据采集器就可以正常运行PHP翻译插件了。
插件下载
百度云下载地址
众多,版权所有丨如无特殊说明,均为原创丨本网站受BY-NC-SA协议授权