知识和经验:商业银行信息系统数据采集实践与经验

优采云 发布时间: 2022-10-27 21:38

  知识和经验:商业银行信息系统数据采集实践与经验

  1 简介

  近年来,随着我国信息技术的蓬勃发展,各行业的信息化水平都有不同程度的提高。在一些领域,特别是国有商业银行,大型信息系统的应用日趋成熟。这些信息系统的后台一般都是大型数据库(如Oracle、DB2等),存储着海量的数据。如何快速高效地采集审计大型信息系统所需的电子数据,成为审计人员必须面对的问题。笔者曾参与过几类大型信息系统的计算机审计,并通过实践总结了一些经验。

  2、商业银行信息系统的特点与数据采集难点

  一般来说,商业银行信息系统复杂,数据量大。在系统升级改造过程中,往往会涉及到系统前后版本、新旧模块的连接和切换。这一切都导致了计算机审计过程中数据采集所涉及的对象极其复杂。

  2.1 系统结构复杂

  (1)企业组织结构复杂,各子单位的应用系统数据比较分散。

  一般大型商业银行在各个地区都有分行,很多分行都自建了相对独立于总行的信息系统。目前,大量的业务数据仍然存储在各个分支机构中,相对完整的数据只能通过各个分支机构的汇总和上报来获得。

  (2)系统原创数据缺失,部分系统缺少文档。

  银行信息系统开发周期长,早期项目管理大多不规范。缺少一些系统 ER 图和软件开发文档。在审计过程中,很难对这部分系统架构和业务流程有一个清晰的概念,导致在data采集过程中很难准确定位到需要的业务数据。

  2.2 信息系统有多种版本

  在系统多年的发展过程中,应用版本众多,多个版本并存。

  商业银行信息系统包括以下主要组成部分:核心会计系统、信用管理系统、国际业务处理系统、客户综合信息系统。在整个信息系统升级过程中,不同的系统运行不同版本的应用模块,给业务数据的采集带来了很大的困难。

  (1)数据集中升级过程中,不同子系统上线和下线时间不一致。

  在推进新版商业银行信息系统的过程中,由于地域差异等原因,各分行的系统上线和废止时间往往不一致。在data采集的过程中,如果需要在各个分支的系统升级过程中扩展业务数据的审计,很有可能同时面对新旧版本的系统,这也对数据集成提出了更高的要求。

  2.3 数据复杂,工作强度和难度大

  (1)审计涉及数据量大,服务器负担重。

  在商业银行的审计中,审计涉及的业务数据往往超过数百G。但是,由于处理能力的限制,搭建在审计站点上的数据服务器往往硬盘容量不足,数据转换速度太慢。针对这种情况,一方面需要不断完善数据服务器的软硬件配置;另一方面,及时删除中间表,利用机器的空闲时间进行计算,提高数据采集和排序的效率。

  (2)数据来源多,不同口径的数据往往存在差异。

  在审计过程中,不同分支机构和相应职能部门提交的数据往往存在一定差异。这些差异通常是由于统计口径的差异。在这种情况下,审计人员花费大量时间寻找数据中的差异并分析原因,从而减慢了整个审计进度。

  (3)系统流程复杂,数据验证困难

  

  商业银行提供的一些汇总报表,如资产负债表、损益表等,往往是从整个系统中抽取的数字统计出来的结果,过程非常复杂。审计人员很难核实这些数据。

  三、数据采集商业银行信息系统实践

  针对商业银行信息系统的特点以及数据采集在审计过程中的难点,笔者总结了实践中海量数据采集的一些方法,可以有效克服业务数据采集 常见问题,从而大大提高审计工作的效率。

  3.1 审前调查

  在传统的审计模式下,无论审计项目规模大小,都需要在审计前了解审计对象的基本情况,从而制定切实可行的审计计划,有序开展审计工作。信息系统数据的采集工作也是如此,需要审计人员进行审前调查,审前调查的内容不仅包括常规审计方式下的一些内容,还包括更多内容与计算机审计有关。具体包括:

  (一)业务流程

  需要详细了解商业银行各业务环节的具体操作方法和目的,并根据了解绘制业务流程图。目的是让审计人员有初步的审计思路,更好地设计可行的审计方案,初步确定数据采集的范围。

  (2) 组织架构

  对被审计单位的整体组织结构有详细的了解。根据知识绘制被审计单位的组织*敏*感*词*。因此,审计人员可以了解被审计单位的结构,从而对业务流程有更清晰的认识。

  (3) 计算机系统

  了解商业银行电脑的软硬件配置,包括操作系统、常用软件、主要服务器的硬件配置。目的是为了方便采集和数据的传输。

  (4) 业务系统

  了解商业银行业务系统的名称、版本、开发者、功能等,以及业务操作系统中的关键表,业务系统之间的关系,以及各个系统在业务流程中的重要性。

  (5) 数据库系统

  了解被审计单位业务系统使用的各个数据库系统的基本信息,包括数据库系统的名称和版本,数据库系统本身的格式,以及可以通过系统导出的数据文件的格式。

  通过审前调查,审计人员还需要进一步明确相关业务数据的具体格式。数据格式满足审计员的需求或审计软件的采集要求。如果不能满足上述要求,则需要通过源数据处理等方法转换成需要的数据格式。

  在审前调查阶段结束时,审计人员需要向被审计的商业银行提交电子数据申请表,同时要求对方提供相应的数据字典。在数据字典中,应包括数据表之间的关系、字段的含义和数据流图。

  3.2 数据采集

  (一)data采集的具体方法

  一是利用商业银行后台数据库管理系统的数据导出功能,将需要的业务数据以固定格式导出,形成txt等格式的数据文件,再导入审计现场的数据服务器。

  

  二是复制信息系统的备份文件,然后在类似的系统环境中重建数据系统,或者建立审计中间表。审计员对重建的系统或中间表进行审计分析。

  三是使用审计软件自带的数据传输工具。比如“现场审核实施系统”自带的数据转换接口工具。

  第四,使用常用的数据传输工具。例如:某商业银行的后台数据库是DB2,我们可以直接使用ODBC将DB2中需要的数据导入到数据服务器的SQL Server数据库中。

  审计人员需要根据被审计商业银行的数据特点,灵活选择具体的数据采集方法。例如,在数据密集型部门,由于数据量通常超过一般审计软件的处理能力,目前常用的数据采集方法是重建模拟系统,然后进行数据筛选等操作。仿真系统。内部财务等数据量不大的部门,可以使用SQL Server等中小型数据库软件,在台式电脑上进行数据采集分析。

  (2)数据采集点的选择

  根据被审计商业银行的数据存储方式,可以采用不同的数据采集策略。对于数据集中存储的银行,采集点最好选择数据集点。对于数据以去中心化方式存储的银行来说,有两种方式来进行数据采集。一是与各个数据存储点建立数据连接路径,将采集数据分离,聚合到数据中心整合;另一种是在数据采集自己的网络集中数据供审计人员集中采集之前供审计银行使用。

  (3) 数据采集频率选择

  在线审计的数据采集频率是由被审计单位数据在生产系统中的保留时间、被审计系统的业务特点、审计周期等因素综合决定的。采集频率也应该根据审计的需要轻松设置,一般以系统参数的形式给出。另外,采集期的选择还要考虑审计期的长短。

  3.3 数据验证

  数据验证是对采集收到的商业银行电子数据的真实性和完整性进行校验,保证审计数据和审计工作的质量,防止“假账验证”。

  由于银行信息系统的复杂性,要​​验证采集的所有数据显然是困难的。因此,必须选择关键系统和关键数据表并验证其内容。同时,根据系统内部的业务逻辑,可以通过不同业务数据之间的链接关系对数据进行交叉验证,从侧面验证业务数据的真实性和完整性。

  4 数据经验采集

  4.1 单独审计

  在现场审计过程中,审计人员不应直接对被审计软件系统的数据库进行分析和测试,而应先将业务数据迁移到审计人员搭建的数据平台,以免损坏被审计软件系统中的数据。

  4.2 确保审计软件的运行效率

  无论使用何种数据采集方法,从审计软件最初接受数据为采集到确认数据保存的过程中,都可能会产生一些临时数据表。长此以往,势必会影响审计软件的运行速度。为了防止临时数据占用计算机磁盘和内存空间,提高审计软件的运行效率,可以在data采集之后集中清理临时数据。

  4.3 加强安全保密

  对已经采集的业务数据进行加密,保证其安全。审计软件应确认关闭其数据导出,防止无关人员随意调用、修改,造成数据损坏或泄露,损害被审计商业银行的利益。

  4.4 灵活使用第三方辅助软件

  在data采集中可以灵活使用第三方辅助软件,提高工作效率。比如在采集过程中,需要创建、导出、导入很多数据表文件。操作复杂,但同时大部分工作具有高度的相似性。这时可以使用UltraEdit等文本处理软件,通过其列模式、文本快速定位、文本比较等功能,简化操作流程,进一步减少数据采集阶段的工作时间。(国家审计署驻上海特派员办公室)

  操作方法:无需代码爬虫,小白也能操作采集各行业数据

  1.阿里巴巴、慧聪网等众多商家网站等。

  二、工商企业公告信息

  2.掌握各种采集工具,轻松找到目标群体数据,挖掘数据。

  (主要以公开展示数据为准)

  目前市面上有很多采集工具,都已经被破解。几百块钱可以买很多套傻瓜式采集软件,但是采集:商户名录、搜索引擎、百度地图商户、外卖商户等渠道,操作简单,输入“ 关键词" 以搜索所需的数据。

  极客网:

  软件种类200多种,终身成本:299元/人,软件只能用一个IP登录,不支持多台电脑同时登录。

  下面展示了一些平台的采集:

  (相关平台资料采集工具)

  (服装搜索引擎关键词)

  (百度地图业务数据)

  网络地图商业信息采集(免费)

  功能:

  1.网页表单采集

  2. 输入 关键词

  3. 选择地区

  4.选择数量

  

  提交采集,一键轻松获取百度商家信息。

  前面提到的商家、百度搜索引擎、百度地图商家采集的数据,然后是免费的商家信息工具采集,功能媲美天眼查、七叉叉等平台。重要的是它免费且易于使用,并且还支持导出表格。

  APP:最近的过去

  功能:

  1.可以看到最新注册的公司

  2.扫描大楼,输入大楼名称,直接查询大楼内有哪些公司。

  3.寻找附近的公司,方便业务员参观。

  4. 要查找公司,请按 关键词 搜索公司。

  5、找老板,可以按名字查询公司。

  6、自带电子名片。

  例如:我搜索了一家服装公司,APP会根据我的位置推荐我附近的一家服装公司,我可以直接导出查看服务公司的法人*敏*感*词*。

  3.最容易操作的爬虫工具

  如果有人觉得以上平台数据不能满足自己,还有其他平台想要采集,但是没有合适的工具。这里推荐一个我用得最多的优采云采集器傻瓜式。

  优采云采集器:

  功能点:

  1、傻瓜式操作,只需填写你想要的网站,然后点击下一步即可轻松采集。

  2.智能模式:基于人工智能算法,只需输入URL即可智能识别列表数据、表格数据和分页按钮。您无需配置任何采集 规则,只需单击采集。

  3.自动识别:列表、表格、链接、图片、价格等。

  4、流程图模式:只需要根据软件提示点击页面,完全符合浏览网页的思维方式。您可以通过几个简单的步骤生成复杂的 采集 规则。数据很简单采集。

  

  5.可以模拟操作:输入文字、点击、移动鼠标​​、下拉框、滚动页面、等待加载、循环操作和判断条件等。

  下面以阿里巴巴采集的操作为例:

  1、找到阿里巴巴网站,输入关键词“服装”,复制网址。

  2. 打开 优采云采集器 并选择智能模式:

  3. 复制刚才搜索服装的URL,点击创建。

  4.由于阿里巴巴需要登录查看商户*敏*感*词*,软件采集规则自动加载后,点击右上角预登录。使用您自己的阿里巴巴帐号和密码登录。

  5、登录后需要重新加载软件采集,加载采集后点击深入采集。

  6.深入采集后会加载页面,分页设置应该是:瀑布流分布

  该页面将重新加载。加载后会显示商户的手机号采集。单击开始采集。

  7.启动采集后,界面会显示采集的数据,采集的速度有点慢,最好找一台专门为采集准备的电脑数据。

  4. 数据二次处理分析验证微信账号是否被激活?

  采集之后的数据还是比较乱的,需要用软件快速处理数据,去除重复数据、固定电话号码、()符号。

  处理数据需要先下载Speed Number Cube 2020:

  筛选是否打开微信需要大数据软件::66/%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%AD%9B%E9%80%89.rar

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线