网络矿工采集器数据加工发布工具的使用

优采云 发布时间: 2020-08-10 06:47

  

  网络矿工采集器数据加工发布工具的使用网路矿工采集器数据加工发布工具的使用(图文版) 启动网路矿工 点击菜单项“工具”-“发布工具”,启动数据加工发布工具,如下图 网络矿工数据加工发布工具可以对三种数据源的数据进行加工处理: 1、 网络矿工采集器早已采集完成且临时保存的数据,表示此数据并未直接入库储存; 2、 可以联接到Access、MSSqlserver、MySql数据库,获取任意数据表数据; 3、 网络矿工雷达监控获取的数据; 选择任意数据源时,只须要双击数据源的节点即可,选择网路矿工采集的数据,即可马上进行数据加载,如果选择数据数据源,系统会提示进行数据库联接信息的配置,我们以MSSqlServer为例,双击“MSSqlserver数据库”节点,打开数据库联接配置窗体 服务器填写数据库服务器地址,当前选择了windos身分验证,根据实际情况选择验证方法,数据库服务器地址和验证信息填写正确后,点击数据库的下拉列表,系统会手动联接数据库,并呈现当前所联接数据服务的所有数据库信息,选择数据库信息后,同样,点击数据表下拉列表,系统会手动呈现所选数据库下的所有数据表,选择一个数据表后,系统会手动写出查询当前表的所有数据的sql句子,意味着提取这个表的所有数据,用户也可以依据实际情况对sql句子进行更改,譬如:增加查询条件,只获取一部分数据进行操作。 配置完成后,确定,即可加载

  

  指定的数据信息 数据加载后,就可进行数据的基本编辑操作。 用户可直接点击一个单元格进行数据更改,类似Excel的操作方法,同时用户也可使用网路矿工提供的数据编辑功能,网络矿工提供了以下数据编辑操作:增加新列、删除列、删除行、删除重复行、增加前缀、增加后缀、自动编号、替换、输入固定值、截取字符、去除网页符号、清空数据等多种编辑操作,同时用户还可新增行数据,或删掉一些无用的数据,对于数据的编辑,系统提供了十分方便的操作,满足用户日常对数据维护的要求。 当数据发生更改时,系统提示进行保存,即保存按键显示为可用。如果是加载的网路矿工采集的数据,保存数据则还是保存在原有文件中,如果是加载的数据库数据,保存数据系统都会提示保存到新的文件中,并非保存到原数据表,这样做的目的是为了可以保存一份原创数据的备份。 当对数据完成编辑操作后,可以将数据发布到新的数据表、或发布到网站。 点击菜单“数据发布”打开数据发布界面, 数据发布可以有两种选项:数据库和网站,数据库支持access、mysql和mssqlserver,暂不支持oracle,网站发布就是通过http的方法将数据手动递交到网站。 数据发布:数据发布操作配置并不复杂,首先须要选择发布的数据量类型,然后点击“设置”按钮,打开数据库配置窗口,进行数据库联接的设置,操作与上面所讲的联接数据库操作相同,配置好后可以选择相应的数据库,并选择数据表。

  

  非常重要:数据表可以选择已有的数据表,也可由用户填写一个不存在的数据表由系统构建并插入数据。对于一个不存在的表,系统会依照当前加载的数据结构进行完善,所以不会出现数据表数组与数据列不匹配的情况,但假如用户选择了一个早已存在的表,就十分有可能出现表数组与数据项不匹配的情况,当用户选择了一个早已存在的表,系统还是会手动填写sql句子,但有可能会出现不匹配,因为系统并不知道数据项该怎么对应数据表数组,所以须要用户手工更改。譬如:我们采集了一个文章的数据(包括标题、发布时间、正文),但选择的表数组是编号、标题、发布时间、来源、正文,这样就出现了不匹配的情况,用户一定要对sql句子进行调整,否则将会插入失败。 当发布规则配置好以后,点击“开始”按钮就可以进行数据发布操作了。注意:如果数据源选择的是网路矿工采集的数据,则发布成功以后,系统也会手动删掉网路矿工采集的数据信息。 发布数据到网站:重点讲解一下发布数据到网站的操作,会有一些技术内容,尽量简单一些。网络矿工的web发布配置操作比较复杂,因为web发布本身须要获取配置的信息并不是很容易的找到,所以在配置过程中也就导致了较大的难度。 首先我们先了解一下原理,我们在访问一个网站时,地址都是http打头,http是一个传输合同,在符合这个合同的条件下,我们的浏览器和网站之间进行文本通信。既然是通信,就可以上传或下载,下载就是浏览网页,上传就是递交数据

  

  。通常情况下递交数据基本会采用POST方式进行,对于POST的理解,我们可以简单的觉得是浏览器将网页用户输入的数据打包,向服务器进行上传,且可以上传的数据量较大。在网页中,组织那些用户输入的数据可以理解为是一个表单,就好象我们的一张报表,用户填写完成交付领导一样。 数据发布到网站,实际就是模拟这些恳求,将数据建立成post方式的http请求,逐一将数据发布到网站。在具体配置之前,我们须要了解,要完整配置一个可以发布数据到网站的发布规则,需要有几部份信息构成: 1、 Cookie,通常发布数据都是须要用户登入的; 2、 提交的地址,很容易理解,就是一个URL; 3、 POST数据,就是我们所说的表单数据; 4、 编码,数据是以何种编码方式递交给服务器; 5、 是否成功,对于软件而言,url恳求发出,系统不报错,就是正确的,但对于递交数据而言,有了错误,通常会返回错误的说明,而不是报错,所以,系统要辨识这些错误信息,才能正确判别数据发布是否成功; 6、 很多峰会为了避免灌水,会控制发贴时间的间隔,所以,要成批发布数据,还须要控制发布的间隔,防止峰会屏蔽掉信息。 我们以网路矿工官方网站论坛为例,进行数据发布操作: 首先我们用网路矿工的Mini浏览器进行一次真实的数据发布,利用网络浏览器对递交的数据进行查看,并对递交的数据进行参数替换,从而完成数据发布的配置。 我们先做一个简单

  

  的信息发布,然后递交,查看post数据和cookie信息,如下: 通过Mini浏览器,我们可以看见当我们发布一条数据时,浏览器向网站提交的数据内容,而我们发布数据,就是根据这样的格式进行数据发布即可,只是须要将其中的内容替换成参数,以实现成批数据的发布。确定退出后,我们可以将POST数据填筑到采集任务中, 通过点击“插入参数”按钮进行更改; 参数部份是系统按照用户配置的采集数据规则手动生成,替换须要递交数据的内容即可,如下: 还有两个重要信息须要进行设置,Cookie和编码。 Cookie的设置相对比较简单,我们可以点击“获取Cookie”按钮,打开Mini浏览器,在浏览器中实际登陆到须要发布数据的网站,此时Mini浏览器会手动记录下登录的Cookie,点击确定,即可将Cookie添加进来。 容易出现问题的地方来了,网络矿工Mini浏览器有一个问题,就是有时会出现获取Cookie不完整的情况,出现此情况时,请通过网路矿工嗅探器来获取Cookie。Cookie设置完成后,可以设置编码。 注意:这里的编码并不是网页的编码,而是指POST递交数据的编码,叫法有些别扭,编码的查看可以通过浏览器进行,这里又要屁话两句了,建议使用Firefox,点击右键“查看页面信息” 箭头所指就是具体的编码了,当然您也可通过查看网页源码,来查看Content-Type中编码的设置。 当以上信息

  

  配置完成后,我们可以测试发布一些数据,看是否可以成功,如果正常的话,发布就成功了,现在我们说不正常的情况。发布失败。如何查看发布失败返回的信息,或者说怎样配置发布成功标记,来辨识发布已然成功。 当启动数据发布后,可在日志输出框内,点击滑鼠右键,选择“查看web发布返回数据”即可打开一个窗口,对web发布后返回的数据进行查看,这是一个浏览器,可将返回的数据进行展示,从而使用户确认发布是否真正成功。 这是一个浏览器,会将web发布后返回的数据在浏览器中显示,用户可通过查看源码设置一个发布成功后的成功标志,并输入到发布规则配置中,让系统进行判别发布是否成功。 一次发布成功并不表示数据就会成功,譬如还是我们所讲的事例,当连续发布时,由于网站设置了回帖的间隔时间,会导致发布失败,如下图: 通过查看web发布返回的数据,我们可以获取到发布中的错误信息,并依照错误信息对发布规则进行调整,设置发布规则的间隔时间为15秒,重新发布即可。 实际对于web发布而言,难度并不是很大,主要的问题是web发布操作对于浏览器而言是在后台操作的,而且发布过程中好多的信息也是不透明的,至少对用户而言是不透明,而这种信息又必须是要设置的,所以就引起了发布配置的难度。 通过前面所讲,我们也是借助了好多工具才将发布规则所需的信息配置完成,并通过多次的测试才可以确保发布无误。多练多练,再多练,逐步能够把握熟练。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线