采集工具免责说明(优采云采集器2010版增加了多处插件处理点可以更方便用户的二次开发)
优采云 发布时间: 2021-09-19 15:15采集工具免责说明(优采云采集器2010版增加了多处插件处理点可以更方便用户的二次开发)
优采云采集器2010版本中增加了很多插件处理点,更方便用户二次开发
插件各部分的说明和用法如下:
1.网站:
这里的插件可以在1级和2级URL的采集上工作(也就是说,0级URL的采集将不使用该插件)。插件将在优采云上工作采集器0处理从一级和一级URL请求返回的HTML代码,并将处理后的HTML代码移交给@采集器、@采集器进行URL提取和过滤
需要注意的是,如果您使用级别2 web地址采集,当插件处理级别0或级别1 web地址请求的代码时,您需要分析请求的web地址和内容,以了解您是在处理级别0还是级别1 HTML内容
2.内容:
这里的插件是@采集器下载默认页面的源代码,然后将整个HTML代码交给插件处理。该插件可以对HTML代码进行添加、删除等操作。例如,在默认页面中有一个JS脚本来生成动态web地址。如果需要采集多页动态网址中的内容,可以编写程序生成多页地址,然后使用@采集器获取地址,然后使用@采集器进行多页处理。例如,对于一些动态生成的下载地址,您可以编写一个程序来生成它们,然后使用@采集器获取并下载它们
3.多页:
这里的插件是@采集器下载多页代码后,将整个HTML代码提交给插件进行处理,然后@采集器分析并从处理后的代码中获取标签内容、下载文件等操作
需要注意的是,如果有多个页面,将处理每个多页面地址@采集器。对于插件如何知道它正在处理哪个多页,请根据传入的URL和内容编写代码
4.保存时:
这里的插件@采集器完成了标记提取、文件下载和保存到数据库之前的处理。插件传入的参数与其他三个插件不同。它是一个数组,是与标记名对应的标记值的组合。用户可以在此处理标签值,例如价格计算、单位转换。此插件的操作位于处理优采云@采集器标记的不合格内容之前。因此,您还可以将标签的值设置为特定值,以实现不保存或删除记录的功能。如果设置数据库中不能有重复记录,也可以使用此插件实现对非重复数据的处理
插件可以同时收录其他页面的代码。例如,它可以具有处理列表URL页面的代码或处理保存的代码。有关特定调用,请参见开发示例
PHP插件和c#插件的开发非常简单。有关详细信息,请参见默认开发示例。在插件管理器中,选择新建插件以查看默认开发环境和说明