教程:html采集插件如何用,优采云采集器插件功能详解
优采云 发布时间: 2022-12-24 15:31类别:软件培训
有优采云采集器2010版增加了多个插件处理点,可以更方便用户二次开发。
插件各部分说明及使用方法如下:
1、挖矿网站:
这里的插件可以对1级和2级URL的采集起作用(也就是说0级URL的采集不会使用插件)。 插件将Ucai优采云采集器0级和1级URL请求的html代码返回处理后,处理后的html代码交给采集器,采集器再对URL进行提取和过滤。
需要注意的问题是,如果使用level 2 URL 采集 ,插件在处理level 0或者level 1请求的URL返回的代码时,需要自己分析请求的URL和内容,从而知道你是处理level 0还是level 1 Level 1 html内容处理。
2、挖矿内容:
这里的插件是采集器下载默认页面的源代码后,会将整个html代码交给插件处理。 该插件可以添加和删除html代码。 比如在默认页面中有一个js脚本来生成一个动态的URL。 你需要为多个页面采集这个动态URL的内容,可以写一个程序生成多个页面的地址,然后用采集器获取地址,再用采集器的多页面功能采集器处理。 比如一些动态生成的下载地址,可以写程序生成,然后用采集器获取并下载。
3.多页:
这里的插件是采集器下载完多页代码后,会将整个html代码交给插件处理。 然后采集器会从处理后的代码、下载文件等操作中分析获取标签内容。
需要注意的一点是,如果有多个多页,每个多页地址采集器都会对其进行处理。 至于插件怎么知道自己处理的是哪个多页,请让开发者根据传入的URL和内容写代码判断。
4.保存时:
这里的插件是采集器完成了标签的提取,文件的下载,保存到数据库之前的处理。 插件传入的参数与其他三个插件不一样。 是一个数组,对应标签名 标签值的组合。 用户可以在这里处理标签值,比如价格计算和单位换算。 该插件的运行位于优采云采集器标签的不良内容处理之前。 因此,也可以设置标签的值为具体的值,从而实现不保存或删除记录的功能。 如果你设置了数据库中一定不能有重复记录,你也可以使用这个插件来实现对不重复数据的处理。
一个插件可以同时收录其他页面的代码。 例如,可以有处理列表 URL 页面的代码,或处理保存的代码。 具体调用请参考开发示例。
PHP插件和C#插件的开发非常简单。 详情请参考默认开发示例。 在插件管理器中,选择New Plug-in,可以看到默认的开发环境和说明。
非常有效:如何去掉 DedeCMS 的防采集混淆功能?
题:
dede5.5的反采集混淆功能怎么去掉? 我现在发的每篇文章都有dede5.5默认的反采集字符串,很烦人,怎么去掉? 还是自己换?
回答:
您好,文章模板中调用文档内容时使用{dede:field.body/}标签,不要使用{dede:field name='body' function='RndString(@me)'/}
在dede cms后台-系统-反采集混淆中,有这么一句话:如果要开启字符串混淆防止采集,请在文档模板需要的字段中添加function='RndString(@me)'属性,这样作为:{ dede:field name='body' function='RndString(@me)'/}。