软文采集器(一个网站采集规则和任务规则的区别和应用详解)
优采云 发布时间: 2022-03-10 03:07软文采集器(一个网站采集规则和任务规则的区别和应用详解)
采集规则:
采集规则分为站点规则和任务规则,通常指任务规则。所谓采集规则,就是你想采集一个网站时在软件中所做的设置。此设置可以从软件中导出并保存为文件,然后导入到软件中。站点规则文件后缀为:.lsite;任务规则文件后缀为:.ljob。
采集任务:
采集任务也称为任务。它是 采集 规则和发布规则的总和。它也是采集规则和发布规则的载体。采集规则和发布规则的设置是在任务编辑框中完成的。从采集器导出的采集规则文件(后缀为.ljob)也可以称为作业规则。导入导出任务规则用于指导.ljob文件的导入导出。
发布模块:
发布模块也称为发布规则,通常指数据库发布模块或WEB发布模块。所谓发布模块,就是当需要将已经采集的数据发布到目的地(例如:指定的数据库,网站)时,软件中的设置。可以将此设置保存为文件并导入到 采集器 中使用。数据库发布模块文件后缀为:.jhc;WEB在线发布模块文件后缀为:.cwr。
规则和多个发布模块。注意这里提到的采集规则是指采集网站和爬取内容的设置。)
发布界面:
发布接口是一个小页面程序,通常与WEB发布模块配合使用。WEB在线发布(使用WEB发布模块)是将采集的数据以POST方式发送到网站页面程序,网站程序会处理数据。发布接口是为满足特定需求而编写的网站页面程序(如PHP页面、ASP页面等)。然后采集器通过WEB在线发布向这个接口文件发送数据,这个接口文件对数据进行处理。接口文件通常放在服务器上的目录 网站 中。简单来说,采集器将采集的数据发送到接口文件,接口文件拿到数据后对数据进行处理。使用发布接口,用户可以处理采集器发送的数据
插入:
优采云采集器中的插件分为PHP插件和.NET插件。标准版支持 PHP 插件,企业版支持 PHP 插件和 .NET 插件。该插件允许用户通过将自己的PHP程序或.NET程序写入采集器来处理采集的数据。采集数据数据可以在四个地方使用插件,分别是:采集网址时、采集内容时、采集多页时、保存时。
发布数据:
发布数据是指将数据从采集发布到指定的目的地。优采云采集器 支持四种发布方式。
方法一:在线发布到网站
这种发布方式类似于在网站后台手动添加数据。采集器将数据发送给网站后台程序,网站后台程序处理数据。通常后台程序将数据存储在网站 数据库中。
方法二:另存为本地文件
这样采集的数据可以发布到本地文件,采集器可以保存为Txt格式、Csv格式和Html格式。
方法三:导入自定义数据库
这样就可以通过采集器连接其他数据库,将软件内置数据库中采集的数据导入其他数据库。目前采集器支持连接Mysql、Access、Oracle、MSsql数据库。
方法四:另存为本地Sql文件(插入语句)
该方法是将采集的数据导出并保存为Insert语句,可用于在数据库管理工具中插入数据。
在本地编辑数据:
采集器不仅可以采集发布数据,还可以发布编辑后的数据采集。支持批量替换、SQL语句批量处理、文本编辑框编辑。