解决方案:详解华为12种数据采集技术及应用实践

优采云 发布时间: 2022-11-21 09:20

  解决方案:详解华为12种数据采集技术及应用实践

  随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战。运营需求。企业需要构建数据感知能力,使用现代手段采集

和获取数据,减少人工录入。数据感知能力架构如图7-2所示。

  ▲图7-2 数据感知

  数据感知分为“硬感知”和“软感知”,分别面向不同的场景。“硬感知”主要是利用设备或装置采集数据,采集对象是物理世界中的物理实体,或以物理实体为载体的信息、事件、过程等。

  然而,“软感知”使用软件或各种技术来采集

数据。采集

的对象存在于数字世界中,通常不依赖物理设备进行采集

。如图7-3所示。

  ▲图7-3 感知分类

  01 基于物理世界的“硬感知”能力

  数据采集​​方式主要经历了人工采集和自动采集两个阶段。自动采集技术还在不断发展,不同应用领域所采用的具体技术手段也不尽相同。基于物理世界的“硬感知”依赖于数据采集,这是将物理对象镜像到数字世界的主要渠道,是构建数据感知的关键,是实现人工智能的基础。

  根据目前的技术水平和应用场景,我们将“硬感知”分为9类,每类都有自己的特点和应用场景,如图7-4所示。

  ▲图7-4 9种“硬感知”

  1. 条形码和二维码

  条形码或条形码是按照一定的编码规则排列若干条宽度不同的黑条和空白来表示一组信息的图形标识。通常,一维条码可以表示的字符集不超过10个数字、26个英文字母和一些特殊字符,条码字符集最多可以表示的字符数为128个ASCII字符,数量信息非常有限。

  二维码是按照一定规律以特定几何图案分布在平面上的黑白图案,用于记录数据符号信息。二维码信息量巨大。可以将使用一维条码时后台数据库中存储的信息加入到条码中。可以直接读取条码获取相应信息,二维码还具有纠错和防伪功能。提高数据安全性。

  2. 磁卡

  磁卡是一种以磁性载体记录字符和数字信息,用于存储身份信息的卡状磁记录介质。根据所用基材的不同,可分为PET卡、PVC卡和纸卡三种;根据磁层结构的不同,可分为磁条卡和全涂层磁卡两种。

  磁卡的优点是成本低廉,因此易于推广,但缺点也很明显,如卡片的保密性和安全性较差,使用磁卡的应用系统需要可靠的计算机系统支持和一个中央数据库。

  3.射频识别

  RFID(Radio Frequency Identification,射频识别)是一种非接触式自动识别技术,它利用射频进行非接触式双向数据通信,利用射频读写记录介质(电子标签或*敏*感*词*频率卡)。从而达到识别目标和数据交换的目的。

  基于特殊业务场景的需求,NFC(Near Field Communication,近场通信)是在RFID的基础上发展起来的。NFC在本质上与RFID没有太大区别,应用上的区别如下。

  4.OCR和ICR

  OCR(Optical Character Recognition,光学字符识别)是指电子设备​​(如扫描仪或数码相机)检查打印在纸上的字符,通过检测边缘的明暗图案来确定其形状,并将其形状转化为计算机的过程文本 。如何调试或利用辅助信息来提高识别准确率是OCR的一个重要课题。

  ICR(Intelligent Character Recognition,智能字符识别)是一种更高级的OCR。它植入了计算机深度学习的人工智能技术,利用语义推理和语义分析,根据字符上下文句子信息,结合语义知识库,补全未识别字符的信息,解决了OCR的技术缺陷。

  一个OCR识别系统,从图像到结果输出,必须经过图像输入、图像预处理、文本特征提取、比对识别,最后人工校正,纠正错误文本,输出结果。

  目前,OCR和ICR技术在业内已有较为成熟的解决方案提供商,非数字原生企业无需自主开发即可完成相关技术的部署和数据采集。

  

" />

  5.图像数据采集

  图像数据采集是指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的目标和物体的技术。它是深度学习算法的实际应用。

  图像数据采集步骤如图7-5所示。

  ▲图7-5 图像获取步骤

  6. 音频数据采集

  语音识别技术,也称为自动语音识别 (ASR),将人类语音的词汇内容转换为计算机可读的输入,例如二进制代码、字符序列或文本文件。

  目前,音频数据采集技术在业界也有比较成熟的方案提供商,通过方案提供商的技术可以方便的完成技术部署和数据采集。

  采集

的声音存储为音频文件。音频文件是指录音设备录制的原创

声音,直接记录真实声音的二进制采样数据,是互联网多媒体中的重要文件。音频获取方式包括下载音频、麦克风录音、MP3录音、电脑录音、从CD获取音频等。

  7.视频数据采集

  视频是动态数据,内容随时间变化,声音与运动图像同步。视频信息通常体积较大,综合了图像、声音、文字等多种信息。

  视频的获取方式包括从互联网上下载、从VCD或DVD中截取、从录像带中采集、用摄像机拍摄等,也可以通过购买视频资料、录屏等方式获得。

  8、传感器数据采集

  传感器是一种检测装置,它能感受被检测到的信息,并能将检测到的信息按照一定的规律转换成信号或其他所需形式的信息输出,以满足信息采集、传输、处理、存储和检测等要求。展示。、记录等要求。信号类型包括IEPE信号、电流信号、电压信号、脉冲信号、I/O信号、电阻变化信号等。

  传感器数据的主要特点是多源、实时、时序、海量、高噪声、异构、低值密度等,给数据通信和处理带来困难。

  9.工业设备数据采集

  工业设备数据是工业机械设备产生的数据的总称。机器中有许*敏*感*词*特定的组件(阀门、开关、压力表、*敏*感*词*等),它们接受来自工业设备和系统的命令以打开、关闭或报告数据。工业设备和系统可以采集

、存储、处理和传输数据。工业设备目前应用于很多行业,包括联网设备和非联网设备。

  工业设备数据采集应用广泛,如可编程逻辑控制器(PLC)的现场监控、数控设备的故障诊断与检测、特种设备等大型工控设备的*敏*感*词*等。

  02 “硬感知”能力在华为的实践

  “硬感知”对于非数字原生企业有着广阔的前景,因为在数字时代,非数字原生企业拥有大量的生产线、工艺技术、实物、物流设备等,都需要用“硬感知”来实现数据。感知和采集

。作为典型的非数字原生企业,华为对九类数据的“硬感知”能力已经应用到各个领域,并发挥了实际的商业价值。

  1.门店数字化

  如图7-6所示,通过七种数据采集方式支撑运营效率和消费者体验的持续提升。

  ▲图7-6 门店数字化

  2、场地数字化

  如图7-7所示,站点主要位于高层或室*敏*感*词*栏尺寸、塔高、机房尺寸、现场实物。设备尺寸、天线高度、布线距离、天线方位角、下倾角、扇区等数字镜像,实现现场勘测规划数字化,实地直接施工,避免现场重复勘测和设计调整。

  

" />

  ▲图7-7 场地数字化

  03 基于数字世界的“软感知”能力

  物理世界的“硬感知”是将物理对象构建到数字世界的主要通道,是构建数据孪生的关键。数字世界中已经存在的分散、异构的信息,可以通过“软感知”能力实现。利用。目前,“软感知”相对成熟,随着数字原生企业的兴起得到广泛应用。我们将“软感知”分为3类,如图7-8所示。

  ▲图7-8 三种“软感知”

  1.埋葬

  埋点是数据采集领域的一个术语,尤其是在用户行为数据采集领域,指的是捕捉特定用户行为或事件的相关技术。埋点的技术本质是监控软件应用运行过程中的事件,在发生时判断并捕获需要关注的事件。

  埋点的主要功能是帮助业务和数据分析师突破固有的信息壁垒,为理解用户交互行为、扩展用户信息、推进运营机会提供数据支持。在产品数据分析初期,业务人员通过自己或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数和活跃用户数。

  这些指标可以帮助企业从宏观角度了解用户访问的整体情况和趋势,从整体上把握产品的运行状态,通过对埋点获取的数据进行分析,制定产品改进策略。

  目前主要有以下几种埋点技术,每种埋点技术都有其独特的优缺点,可以根据业务需要进行搭配使用。

  2.日志数据采集

  日志数据采集

是实时采集

服务器、应用程序、网络设备等产生的日志记录。这个过程的目的是识别操作错误、配置错误、入侵企图、策略违反或安全问题。

  在企业业务管理中,根据IT系统建设和运行产生的日志内容,日志可以分为三类。由于系统的多样化和分析维度的差异,日志管理面临着许多数据管理问题。

  3.网络爬虫

  网络爬虫又称网络蜘蛛、网络机器人,是一种按照一定规则自动抓取网页信息的程序或脚本。

  搜索和数字化运营需求的兴起,带动了爬虫技术的快速发展。作为网络、数据库和机器学习的交集,爬虫技术已经成为满足个性化数据需求的最佳实践。

  Python、Java、PHP、C#、Go等语言都可以实现爬虫,尤其是Python配置爬虫的便捷性,使得爬虫技术迅速普及,也引起了政府、企业界、个人的重视信息安全和隐私。

  04 “软感知”能力在华为的实践

  “软感知”主要为产品的持续运行提供服务,基于对产品日志和用户行为的感知来完善产品功能。以华为内部数据管理平台为例(如图7-9所示),数据管理平台的数字化运营需要识别用户行为,从而提升运营效率和用户数据消费体验。

  ▲图7-9 数据管理平台用户标签

  通过埋点平台,在界面上抓取用户从数据定位到最终消费的浏览过程和停留时间,并关联用户的部门、职位、地点等信息,自动生成用户画像和数据画像,确定用户细分范围,定义具有相同认知背景和业务场景的用户,为搜索提供可识别的分类资产,定义数据资产分类,为不同的用户定义不同的资产范围,减少匹配差异和搜索引擎复杂度,训练搜索引擎和推荐算法提供最优数据推荐结果和排名位置。

  12类感知能力在企业的应用,突破了原有人工维护数据的局限。但无论是“软感知”还是“硬感知”,如果生成的数据不纳入企业整体数据管理体系,如果仅以独立数据的形式存在,则无法应对复杂的企业数字化转型。

  作者简介: 华为数据管理部作为集团层面的数据管理机构,主要负责公司数据工作的战略规划、路线图措施和实施;数据从生成到消费全生命周期管理的治理框架、流程规范、方法和方法 IT工具的制定和实施;公司级信息架构设计及数据资产治理与维护;主持集团层面数据相关项目,推进以数据为核心的数字化转型。

  本文节选自《华为数据之道》,经发布者授权发布。

  解决方案:如何查看百度快照,它有哪些特定功能?

  每次在搜索引擎里搜索东西,都会在搜索链接下看到百度快照四个字。很多人不是特别理解这个或者它的意思。其实我们可以这样理解,百度快照是你搜索的网页的纯文本备份,所以你在查找资料的时候,可以这样查找。

  

" />

  即使之前的搜索记录已经被删除,你仍然可以在百度快照中找到相应的信息。至于怎么查看,可以直接在搜索结果中打开百度快照选项查看,里面会有各种操作和记录。包括一些被删除的内容或黑历史,都可以这样呈现。这显然是很多人在搜索内容时需要用到的一个功能,因为有时候信息没有节省时间,可能找不到。

  但是有了百度快照,他们可以根据自己的记忆帮助自己找到自己想要的东西。所以现在很多网站都开通了这个服务,给用户带来了更多的满足感。事实上,每个收录的网站都会有一个纯文本备份,也就是大家所说的百度快照。所以你不用考虑,你可以从这些快照中获取你的业务和产品的基本信息。

  

" />

  例如,如果您在网站上搜索产品,您可以在产品标题下看到一系列的介绍。这些内容属于百度快照,但也有特殊的操作方式。只有根据自己的需求优化特定的内容,用户才能看到更多他们想看的东西。所以对于企业来说,百度快照就像一张公认的名片。当你看到这类信息时,你会有一种想要深入了解的渴望。所以现在很多公司都在做这方面的优化,就是希望大家在百度快照上能更好的了解自己对公司的需求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线