智能标签采集器开发-采集技术技术的简单介绍

优采云 发布时间: 2022-08-04 18:05

  智能标签采集器开发-采集技术技术的简单介绍

  智能标签采集器开发-智能标签采集器介绍智能标签采集器(或称:e-id采集器)是一款能很方便地快速的采集e-id在html页面中的内容并实现html页面无代码采集和自动转化的工具。智能标签采集器有两种采集技术,一种是直接采集标签的链接,转化为html页面;另一种则是借助虚拟标签采集器采集标签的内容。智能标签采集器只实现一种采集技术,这个采集技术就是虚拟标签采集器。

  

  智能标签采集器作为一款快速采集虚拟标签的工具,能快速实现数据的采集而且不需要用户操作。下面我们就分别对它的两种采集技术技术进行简单的介绍。虚拟标签采集器虚拟标签采集器以用户自己定义的标签为搜索原始资源(如:公司网站),再以“标签内容”为目标网页,以及描述性文字(如:公司简介、注册地址、*敏*感*词*等等)作为标记。

  标记里面会记录虚拟标签采集器采集的虚拟标签的内容以及用户所分配的虚拟标签id。采集网页标记的标记内容和采集网页标记的id,然后输出excel表格,一共四种输出方式。1.如下是智能标签采集器的shell脚本,用户可以给标签后面加上标记,这样就在后面生成智能标签时用户可以选择网页标记格式。默认的话输出表格格式是默认用户自己定义,如下图1所示。

  

  输出表格格式2.智能标签采集器的智能标签采集机制,根据用户分配的虚拟标签自动解析。使用虚拟标签采集器采集虚拟标签时,需要自己先定义一个虚拟标签的内容(不需要使用默认定义标签的方式)。智能标签采集器会根据标签id去解析数据,解析后的数据再和虚拟标签进行解析对比以获取标记数据(智能标签采集器还支持html语法进行解析对比)。

  这个解析对比的过程涉及html语法解析,在这里不进行详细介绍,需要知道数据解析过程就懂了。html语法对比智能标签采集器采集的标记数据使用了javascript脚本格式编写,不支持javascript语法编写。详细关于如何使用智能标签采集器采集javascript数据有时间另作详细介绍。智能标签采集器支持不同数据规格的标记格式。

  目前智能标签采集器支持的标记数据为"多行"标记格式。多行采集使用e-id采集器的标记格式时,支持文本标记格式。支持"多行"标记格式3.浏览器标记转换器目前智能标签采集器支持javascript标记转换为e-id标记,javascript转换为e-id格式要选择"转换"项。转换e-id格式的javascript标记只支持javascript格式,不支持javascript转换为其他标记格式。对于标记数据有e-id标记,当标记数据中用e-id标记保存时,e-id标记无。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线