【实务操作】外部数据：用信息不对称解决审计信息不对称

优采云发布时间: 2022-08-23 13:40

　　导读

　　数字化审计的基石

　　数据是数字化审计的基石，思路实现、模型训练、结果验证、问题支撑等都离不开数据。

　　数据都是从具体的活动或场景中产生后，通过各种技术抽取、存储下来的。

　　数据抽取过程是降维的过程，剥离了场景的细节，而审计人员分析和应用数据的过程是个升维的过程，基于个人能力、判断和模型假设等进行场景还原。这个还原过程，很容易受到审计人员个人主观经验和经历的影响。

　　正确认识数据、准确判断数据来源、客观评价数据价值，对数字化审计工作很重要。

　　是否具有对数据所在场景的认知，数据的来源是否可靠等等，对审计分析或风险判断的全面性、准确性影响很大。

　　从内部审计的角度，数据按照来源的不同可以分为内部数据和外部数据。

　　1内部数据

　　内部数据是公司内部的经营管理过程中生成的数据，一般来自于业务系统、数据仓库、被审计对象提供的数据包等。

　　在数字化审计过程中，内部数据面临的最大难点是如何克服“数据孤岛”，进行字段映射，多源数据融合。

　　2外部数据

　　外部数据是公司经营管理之外及所处环境中相关的数据。

　　外部数据主要来源有互联网上的以网页形式展现的公开信息、开源数据集、商业付费数据和政府开放共享的数据。

　　利用信息不对称

　　由于行为主体根据不同的目的，总是会选择不同的信息展现方式，不同的方式和内容间存在的差异就是矛盾所在，也就是审计可以关注的触点。

　　在数字化审计过程中，外部数据可以帮助审计人员扩展信息的边界。

　　很多时候利用行为主体在内外部数据中表现出来的不对称，通过外部数据和内部数据的交叉验证、“碰库”，往往会有很多重要发现。

　　举个例子，仓库的保管员在从仓库中顺出重要零配件或成品时，会最大程度掩盖信息，不让人知道其拿出的产品名称、规格型号等。但其顺出成品的目的是为了出售获利，在闲鱼等二手交易平台上，其会选择最大程度展现信息，吸引更多的卖家。

　　注意到这个信息不对称的情况，就可以使用网页数据采集工具从二手交易平台上获得相关公司产品的交易情况，内外部数据相结合，反向进行追踪。

　　网页背后的“交互”

　　1所见

　　当我们在浏览器（Edge、Firefox、Chrome、Safari等）地址栏中输入一个网址后，浏览器就向目标网站的Web服务器发出一个HTTP报文请求（Request），目标网站的Web服务器经过校验确认是一个正常的请求后，将请求的页面文件（包含图片、链接等资源）返回给浏览器（Response），浏览器收到返回的数据后，调用网页文件解析内核进行渲染，显示在浏览器窗口中。

　　（图源：wiki）

　　打开浏览器如Edge，按F12键（其他浏览器也是这个快捷键），进入浏览器的“开发人员工具”界面。

　　在浏览器窗口的右侧就会出现“开发人员工具”操作区域，在这个区域中可以浏览、跟踪、调试、分析浏览器和Web服务器的HTTP报文交互。

　　HTTP报文一般可以分为报文首部（Header）和报文主体（Body）两块。报文首部包含Web服务器或浏览器需处理的请求或响应的内容及属性。

　　2所得

　　浏览器返回的是一个超文本标记语言（HyperText Markup Language，HTML）文件（或动态页面文件），实际是文本型的文件。

　　浏览器页面右键“查看页面源代码”，可以看到文本形式展现的信息。如下图所示：

　　（图源：《数字化审计实务指南》）

　　如何从网站返回的各类文件中（HTML、PDF、Word等）获取信息记录，可参见“看得到，取得到，才是数据”系列推文。

　　如何获取外部数据

　　理论上，在符合数据安全保护等法律法规的前提下，所有在浏览器中看到的信息都可以自动采集下来。

　　但网站的web服务器技术千变万化，大多数网站都不是静态网页，信息的采集也需要平衡工具采购、代码开发需要的时间和对数据分析的价值。

　　外部数据的获取，根据来源的不同有信息采集、API接口调用、离线下载和付费购买。

　　无论哪一种形式，在获取过程中都需要注意遵守《数据安全*敏*感*词*》等相关的法律法规，需要注意涉及个人信息的隐私安全保护。

　　1使用信息采集工具

　　网页信息采集工具非常丰富，各有各的特色。对于比较规范、常规的网页，信息采集工具是个时效比非常高的选择。

　　开源的网页信息采集工具有Heritrix、Hawk（ Advanced Crawler& ETL tool written in C#/WPF ）等。在线的网页信息采集工具有ParseHub等。

　　可以免费使用部分功能的商业网页信息采集工具有优采云、优采云、集搜客（GooSeeker）、优采云采集等等。

　　以下的介绍仅仅是个人使用操作描述，不涉及商业推广，不构成推荐建议。

　　作为后起之秀，优采云采集号称“小白神器！”、“前谷歌技术团队倾力打造，基于人工智能技术，只需输入网址就能自动识别采集内容”。

　　（图源：）

　　优采云采集器提供智能模式和流程图模式两种操作模式。

　　智能模式下，只需要输入首页网址，软件就能智能识别网页上的列表（li）、表格（table）、链接（a）、图片（img）等元素，实现一键采集，对常见的网站信息采集比较方便。

　　流程图模式下，按照人为浏览网页的操作方式，通过软件自动识别和操作提示选择的方式，自动生成采集规则。

　　如，设置优采云采集器打开一个*敏*感*词*公告列表页面，软件会自动识别页面上的列表链接、翻页链接，提示选择是否循环点击列表、是否自动翻页，点击列表链接后，自动打开处罚公告的详细内容页面，然后根据要素点击选择需要提取的信息。做完这几步，就可以生成当前网站的采集规则。

　　流程图模式下，软件还可以模拟人浏览网页的动作，比如输入文本、点击按钮、滚动页面、等待加载等。

　　优采云采集器目前也支持免费导出全量采集结果。采集结果可以以TXT、EXCEL、CSV和HTML等文件格式导出到本地，也可以直接发布到MySQL、MongoDB、SQL Server等数据库中。

0

2022-08-23

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

【实务操作】外部数据：用信息不对称解决审计信息不对称

0 个评论

发起人