抓取网页数据工具(58手机号码识别插件和百度翻译插件的用法(组图))
优采云 发布时间: 2021-11-23 22:03抓取网页数据工具(58手机号码识别插件和百度翻译插件的用法(组图))
使用优采云采集器时,也会用到插件。优采云采集器将采集的数据传递给外部程序,我们称之为插件,然后插件处理数据,再将数据返回给采集器@ >.
优采云采集器V9支持PHP和C#编写插件,V9支持插件源码编辑。网页数据爬取工具优采云采集器的插件可应用于采集结果、HTTP请求、文件下载的处理。您可以在插件设置时从插件管理器的下拉框中选择一个现有的插件来实现特定的应用。
用58手机号码识别插件和百度翻译插件来说明一下用法。
58个插件演示:
(1)首先需要把插件58验证码V9.dll放入采集器的Plugins目录下
(2)然后在“其他设置-插件-采集结果处理插件”中选择这个插件。
(3)最后需要创建一个名为“手机号码”的标签,从采集到58手机号码的图片地址,这样运行时采集器会自动调用插件 图片转义后输出为数字文本。
翻译插件演示:
(1)首先我们要把插件百度翻译.dll放到采集器的Plugins目录下
(2)然后在“其他设置-插件-采集结果处理插件”中选择这个插件。
(3)最后,我们需要创建一个名为“translation tag”的标签,将需要翻译的字段名称写成固定字符串的形式。
然后创建一个名为“Translation Reverse”的标签,将翻译语言写成固定字符串的形式,比如将中文翻译成英文,代码:zh>en(zh表示中文,en表示英文,这种语言代码是在使用前检查)。此操作后,运行时优采云采集器V9会自动调用插件进行翻译。
借助插件,我们可以使用优采云采集器来完成更复杂的任务。在采集器中,除了使用已有的插件,我们还可以编写需要的插件来使用,非技术人员可以联系官方定制插件。