智能采集平台(智能采集平台功能介绍(采集器)是使用人工智能技术来提取数据的一种平台)
优采云 发布时间: 2021-09-04 11:06智能采集平台(智能采集平台功能介绍(采集器)是使用人工智能技术来提取数据的一种平台)
智能采集平台功能介绍采集平台是使用人工智能技术来提取数据的一种平台功能,包括:采集数据自动关联图片、图表和链接等等。并且将采集到的数据都可以批量上传上传到集群服务器。每条数据都自动关联到每一个任务上,加速任务速度,减少数据压力,提高整体服务能力。采集平台可以将采集到的数据实时同步到阿里云数据库上,将原来10s才能走完的任务缩短到1分钟甚至更短。同时使用采集平台自带的数据组件,还可以很方便地开发出图片、视频、图表和文字识别组件。功能效果。
1、全面的采集功能对于涉及物流、人工运营、仓储以及金融等采集数据的行业,采集功能是必不可少的。
2、可自动抓取大量用户动态数据基于大数据分析,实时抓取用户动态数据,其覆盖海量用户行为数据,如人物、商品和事件等。可以将这些复杂数据统一上传到集群服务器,为各个应用提供数据源。
3、多种上传器实现数据采集可以使用多种采集器,自定义性强,速度快。
1)json-etree采集器:基于es,扩展性强,容易上手。不需要写全文代码。
2)rce采集器:加上本地进程,速度可以提升到3~4倍。
3)rcjson采集器:基于python3.6,速度比其他语言快5倍。
4)yxioms采集器:速度速度比echarts上传器快2~3倍。每条数据都会自动关联到集群服务器。
5、图片识别组件生成本地类似图片,自动关联到数据库,一键处理采集的数据。支持文本和表格图片识别生成。抓取的数据都会实时同步到阿里云数据库。使用步骤打开采集器进入采集器界面,点击“下一步”登录集群服务器登录后,进入集群服务器中,选择自己采集平台使用的集群数据库。(accesscontrolpanel)输入需要抓取的数据库密码,选择自己的进程,继续点击“下一步”。
输入用户名和密码,进行下一步。当采集完所有包含参数的静态数据时,可以点击“保存数据”设置json-etree数据包。如果采集结束后数据库不在线,则无法保存数据包。一般默认为30min,可以自行设置数据库时间。进入json-etree生成数据包界面,这里对应的是json数据包的编码方式,很多人看了之后不知道该怎么编码。
一般建议为utf-8,带数的话则自动使用utf-8,如果不带数,则使用ascii编码方式,这个在设置json-etree编码上比较麻烦。max-target为根据当前状态默认设置的最大json-etree数据包编码格式,例如采集一百万条的数据包,max-target设置为1m。max-top为数据包最大包总大小,例如采集一百万条数据包的数据包编码为utf-8,max-top设置为100000m。min-frame为当前采。