技巧:魔法工具 | “优采云 ”帮你从网页上扒数据

优采云 发布时间: 2022-11-24 01:10

  技巧:魔法工具 | “优采云

”帮你从网页上扒数据

  美美怎么了?你为什么看起来很悲伤?

  忘了它!老板让我把网上的资料整理成excel表格。但是这里的数据量这么大,我要花点时间整理一下。如果使用数据一张一张复制粘贴的方式,会耗费一些时间。但是如果你使用“优采云

collector”,它会在几分钟内完成!

  优采云

是一个方便的网页数据采集

器。简单的说,它可以帮助我们从结构化的网页中抓取需要的数据,并以表格的形式导出,供后续处理。该软件目前仅支持Windows系统,使用Mac系列电脑的朋友可以安装虚拟机或者使用双系统。

  下载软件并注册账号后,会看到如图所示的界面:

  右边是我们的主工作区,优采云

提供了三种使用模式:向导模式、高级模式和智能模式。

  向导模式集成了四种常用的采集方式,分别是列表或表格采集、列表和详情采集、URL列表采集和单个网页采集。它们的作用和区别如下:

  优采云

设置了一个向导帮助您了解这些获取方式,点击“开始学习”,软件会自动演示流程,您只要按照它的引导即可熟悉相关操作。下面演示列表或表集合的具体过程:

  1 设置任务名称

  

" />

  填写任务名称、分组、备注,方便识别。

  2设置网址

  填写需要采集数据的网页,注意这个网页的内容一定要结构化(即整齐、规整)。

  3 设置列表

  在网页上点开一个单位的整个信息区,图中*敏*感*词*的是本页“老山东”店铺的完整信息,需要点两三项直到优采云

可以自动捕获下面的所有项目。

  4个设置字段

  该字段是您要捕获的数据的内容,只需在下面的网页上单击并选择它即可。

  5套翻页

  顾名思义,设置是否翻页,如果需要翻页,还需要在网页中点击【下一页】让优采云

知道如何翻页。

  6 完成并导出

  

" />

  至此,一个采集任务已经配置完成,接下来就可以启动程序运行采集任务了。单机采集是指在本电脑上采集,对所有用户开放。云采集运行在云端。使用云采集不需要电脑将任务配置为在线,即可以关掉电脑等待任务完成,更加方便。不过,云采集

只对终极版用户开放。

  采集任务启动后,会弹出如下窗口,可以看到我们需要的数据已经全部采集到一个列表中了。任务完成后,您还可以将结果导出到数据库或文件类型,如 excel 和 csv。

  高级模式相对复杂,需要自己设计采集工作流程。结合相应的动作(包括打开网页、点击、循环、条件选择等),可以获得更加优化的个性化采集方式。其实向导模式下的四个类在高级模式下都可以写。

  智能模式更简单,你只需要给优采云

一个网址,它就会自动整理出网页上可以抓取的数据。

  总的来说,优采云

的操作更加人性化。除了程序内置的几种采集模式外,您还可以在资源市场下载其他用户分享的采集规则来满足您的需求,比如微博评论爬取、论坛帖子采集等。软件本身是免费的并采用积分制。每次导出数据,都会扣除一定的积分。分享数据资源和采集规则可以获得积分。当然,付费升级会更简单地解决这个问题。

  美美,老板交代给你的事情,你处理得怎么样了?

  太奇妙了!有了这个 优采云

抓取器,它很快就完成了。连老板都没想到我能这么快完成。看来我马上就要升职加薪走上人生巅峰了哈哈哈!

  作者|王宇

  编辑|戴文斌、甄子丹

  教程:优采云

采集器PHP翻译插件分享及详细使用方法

  文章目录[隐藏]

  2018年1月3日更新:由于百度翻译规则的变化,增加了随机符号和token两个参数进行校验。该插件已过期,无法使用。

  最近逛优采云

官方论坛,发现有人分享了一个php优采云

采集

器百度翻译插件。看代码,这个插件是直接请求百度翻译,然后获取百度翻译的结果来实现的。这样做的好处是不需要申请百度翻译API,所以没有翻译数量限制(百度翻译API有免费字数限制,超过免费字数需要收费)。

  而且这个php翻译插件使用灵活,只要结合优采云

采集软件的采集规则简单修改代码中需要翻译的参数即可,剩下的直接上启动优采云

网站采集软件。向上。

  插件代码

  将以上代码保存为PHP文件,放到优采云

数据采集器的插件目录下。文末有插件下载地址,您也可以直接下载使用。

  指示

  使用方法非常简单。首先将插件的PHP文件放在优采云

数据采集软件安装目录下的Plugins文件夹中,然后根据采集规则和需要翻译的标签修改PHP代码。

  修改后的方法如下:

  1.修改代码第50行需要翻译的语言,按照注释中的说明进行修改。默认是将中文翻译成英文。其他语言的代码标识见第18-34行的代码说明。

  2.修改第86行到第88行需要翻译的标签,默认是翻译“title”、“关键词”、“content”这三个集合标签。一排代表翻译标签。如果需要添加或删除已翻译的标签,只需按照评论中的说明添加或删除即可。

  优采云

Collector PHP翻译插件测试结果

  3.翻译后的标签名,新建一个对应的标签名即可,规则留空即可。比如上图中,标签“title”就是采集的内容,“translated title”就是翻译后的内容。您只需要在采集规则中创建一个名为“翻译标题”的标签即可。这个标签没有任何需要填写的规则。

  预防措施

  由于优采云

采集工具本身的PHP环境问题,如果直接运行插件可能会报错或者翻译失败,所以我们需要修改优采云

的PHP网站采集软件。

  修改优采云

网站数据抓取软件的PHP环境也很简单。打开优采云

网站数据抓取软件的安装目录“System/PHP”,找到php.ini文件并打开,找到如下代码。

  

;extension=php_curl.dll

  删除前导分号“;” 并保存。

  这样优采云

数据采集器就可以正常运行PHP翻译插件了。

  插件下载

  百度云下载地址

  众多,版权所有丨如无特殊说明,均为原创丨本网站受BY-NC-SA协议授权

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线