解决方案:如何高效进行数据采集，这里有一套完整方案

优采云发布时间: 2022-11-21 08:31

　　解决方案:如何高效进行数据

" target="_blank">采集，这里有一套完整方案

　　GrowingIO高级技术顾问，毕业于北京大学，Extron认证工程师。曾服务于奇瑞汽车、中铁建工、滴滴等龙头企业，具有丰富的技术部署经验。

　　一、数据质量是数据分析的基石

　　假设一个场景：我们要采集

广告投放页面的数据。

　　首先和技术同学描述一下用户进入app打开页面时所面临的场景：浏览——点击——跳转到广告页面；然后，我们提出了埋点的需求。

　　点击数据分为有效点击和无效点击，但是技术面的同学不会担心这个问题。随手从网上下载了一个闪屏页面框架，集成到项目中。

　　在这个框架下，点击动作被分解为：按下，抬起。我们通常认为的点击动作应该是：短时间内按下和抬起同时启动。

　　由于该框架的目标是提高点击率，即增加看到广告详情页的人数。因此，当用户按下按钮时，已经触发了跳转到详情页的动作。

　　大多数非目标客户会不耐烦地退出广告详情页，而真正看到广告并感兴趣的客户会主动进入广告详情页。

　　由此带来的洞察是：点击率高，转化效果差。营销方面的同学误认为是广告设计的失败，会影响下次广告投放的视觉效果或投放策略。

　　通过上面的例子，我们得出结论，数据采集的时机和技术端的实现方式会极大地影响业务端的决策。

　　“九层台，起于土堆”。在形成一组有洞察力的数据之前，数据采集

是最基础也是最关键的一步。只有准确采集

数据，洞察结果才能帮助您做出业务决策。否则会适得其反，再漂亮的数据分析也带来不了实际的效果。

　　然而，在实际执行掩埋方案的过程中，我们可能会遇到以下困惑：

　　GrowingIO在与上百家客户实施埋点解决方案的经验中发现，“数据采集带来的数据质量问题”可能已经成为企业普遍存在的问题，造成该问题的主要原因如下：

　　数据采集

与数据质量有关。需要产品端和业务端的同事制定技术实现方案，让技术同学“看得懂，看得懂，快实现”。

　　2. GrowingIO为高效数据采集保驾护航针对这些棘手的问题，GrowingIO的非埋点技术可以快速定义页面、按钮、文本框等常见用户行为操作，从而减少一些重复性高的用户常见行为中的埋点量代码操作方便数据的快速可视化。1、无埋点定义

　　什么叫无埋点？先来看看你是否遇到过以下场景：

　　对于以上问题，无埋点都可以很好的解决。无埋点其实就是人、时间、地点、内容、方法的数据采集方式。通过GrowingIO的圈选（可视化定义工具）功能，我们可以将指标定义为所见即所得。

　　无埋点（圈选）的核心思想是基于以下五个元数据：

　　无埋点可以定义通用的事件类型，尽可能减少代码的使用，减少开发工作量。通过GrowingIO的圈子选择功能，我们可以快速采集

数据，定义指标，查看实时数据。

　　2、如何选择埋点和非埋点？

　　新型免埋点虽然简单方便，但也有其局限性。同时，我们离不开业务数据维度，所以传统的埋点也不能舍弃。

　　埋点和非埋点各有优势。面对不同的场景，我们需要明确目的，结合具体情况综合判断，选择最优的数据采集方式。

　　(1) 埋葬

　　缺点适用于“监控分析”数据场景：

" />

　　(2)无埋点

　　缺点适用于“探索性”数据场景：

　　基于以上，我们整理了下表，方便大家更好的理解和选择：

　　总之，点埋技术灵活、稳定、低限、高精度。适用于跟踪关键节点、隐藏程序逻辑、匹配业务维度的观测数据。无埋点技术判断速度快，有历史数据和预定义维度，适用于快速查看某些趋势或过程数据。

　　当我们选择无埋点或埋点时，只需要注意：该行为不是核心指标，存在于预定义的无埋点指标中。

　　如果预定义指标存在（即无埋点），预定义维度也满足要求，那么我们需要观察指标和无埋点维度，可以放心选择无埋点。如果不存在或者预定义维度不能满足观察指标的角度，需要通过埋入指标上报。

　　3.完整嵌入方案设计的四大要素。规划好指标体系后，推动落地是价值落地过程中最重要的一环。很多客户虽然对监控的数据系统已经很清楚，但是在实现上还是遇到了瓶颈。这很大程度上是因为团队合作的问题，比如项目埋点数据量大，沟通成本高，业务方和开发方无法统一目标等。

　　这最终会把我们引向一个空系统，里面有无数的东西要看。

　　如果直接向研发方提供一套完整的数据采集方案，业务场景描述和逻辑理解的差异会造成大量的沟通成本，最终导致实施效率低下。

　　因此，我们需要将组织好的指标体系梳理成实施要求。解决这个问题的关键在于以下四个步骤：

　　1.确认事件和变量

　　如果换个角度定位问题，它的事件和变量也会发生变化。我们需要根据数据需求找到匹配事件和变量的最优解。2.指定事件的触发时机

　　时机的选择没有对错之分，需要根据具体的业务需求来制定。同时，不同的触发时机会带来不同的数据口径。3、规范命名

　　举个例子：一个客户在双十一活动的命名中使用了拼音和英文的组合，这会让程序员感到困惑而出错。规范的命名有助于程序员理解业务需求并高效地实施嵌入解决方案。

　　4.明确实施重点

　　通过明确优先级，我们可以专注于产品中真正需要跟踪的重要事件，避免技术冲突，实现价值的持续交付。基于以上四个要素完成埋点方案的设计，不仅可以提高需求方与开发团队的协作效率，也可以为后期的数据提供质量保证。

　　下表是我们整理出来的模板。这种形式完全承担了嵌入方案设计的四大要素，可以直接交给技术方进行嵌入。

　　4、团队合作是嵌入计划实施的关键。接下来，如何快速准确的理清团队中的埋点需求，实现埋点方案的高效执行？

" />

　　1. 完整的嵌入式协同流程我们GrowingIO根据服务上千家企业的经验，整理出了完整的嵌入式协同流程。包括业务需求方、数据规划方和开发团队。

　　三方合作的具体流程和时间安排为：

　　2.具体场景演示

　　下面我将以一个APP的注册场景为例，帮助大家理解实现埋点方案的具体过程。

　　（注册首页填写手机号码——输入注册验证短信验证码——注册信息A、B、C——进入App首页）

　　(1) 场景一中业务方的需求是：快速分析现有注册流程各步骤之间的转化率，找出损耗较大的环节并进行优化。

　　可以看出，业务方只关心流程之间步骤的转换过程，所以我们需要关注用户的浏览行为，指标可以定义为步骤之间的页面。

　　具体来说，从登录首页到登录首页的登录动作有6个步骤，我们的关注角度如机型、地区、国家等不属于业务范畴，都在预定义的维度中，是符合我们 unlimited 埋索引的定义规则的。

　　因此，我们可以快速定义6个浏览页面指标来完成数据分析。

　　通过对GrowingIO产品的分析，我们可以得到如下图表，可以看出每一步的人数和转化率。观察到注册验证-注册信息A-注册信息B这三个页面丢失率较高，这里需要优化。

　　以上是无埋点的快速定义。我们可以实时观察数据和分析事件，而无需等待下一次发布。(2) 场景二

　　客户的需求是：查看完成注册的用户中实习行业和性别的分布情况。

　　根据完整嵌入方案设计的四大要素，我们要一一确认：

　　程序员根据呈现的嵌入式程序文档，无需反复沟通，即可快速明确业务需求，进行嵌入式操作。3.数据验证

　　数据采集完成后，需要进行最后的确认，也就是我们通常所说的数据验证。

　　对此，GrowingIO有一整套数据验证工具，可以快速定位数据产生的过程。比如浏览了哪些页面，是否触发了事件，埋点事件是否对应定义的字段等。

　　如果某个环节出现漏洞，我们可以及时反馈问题，解决问题。最后，在这里和大家分享一句话：“根深则生，根深则万年”。数据驱动的“根”在于数据采集

。只有采集

到的数据足够准确，才能做出正确的决策，促进企业的可持续发展。

　　今天的分享到此结束，感谢大家抽出宝贵的时间，希望对大家有所帮助。

　　解决方案:【韩国论文】基于OSINT的威胁信息收集系统，用于创建可用的网络威胁情报

　　概括

　　2018年至今，已知的针对性攻击团体数量稳步增长，较2016年从155个增加到39个，平均侵权停留时间从2016年的172天增加到2018年的204天。为应对日益多样化和加剧APT（Advanced Persistent Threat）攻击，*敏*感*词*企业对网络威胁情报（CTI）的使用越来越多。

　　目前，KISA 正在开发一种可以根据全球趋势使用 CTI 的系统。在本文中，我们介绍了一种基于 OSINT（开源情报）的网络威胁信息

" target="_blank">采集

和关联表达系统，以有效利用 CTI。

　　一、简介

　　根据全球安全公司赛门铁克（Symantec）2019年发布的网络安全威胁趋势报告，如图1所示，目前已知的目标攻击群体有155个，从2016年的39个增加到2016年的116个。其中只有 23% 使用最先进的技术，例如零日攻击，这意味着目标攻击组可以利用现有的攻击技术和工具 [1]。

　　此外，全球网络侵权事件持续发生，2016年亚太地区侵权事件平均停留时间从32天增加到204天，如图2所示，这意味着网络威胁的持续性越来越高和先进的。在这种情况下，为了有效应对类似/变体攻击，需要网络威胁情报技术采集

系统中以前采集

和共享的数据，以了解相关性并分析相似性。例如，根据 SANS 的 2019 年 CTI 报告，金融、公共和 IT 等各个领域的安全人员中有 80.8% 的人回答 CTI 开发是有效的 [2,3]。

　　要有效地使用 CTI，必须共享信息。CTI运行的核心是根据想要使用它的组织的要求，确定受保护资产与CTI数据之间的关系，如图3所示，并有针对性地推出保护措施和应用。

　　然而，在韩国，以国家机构和信息共享与分析中心（ISAC）为中心的共享形式是有限的。特别是，由于大多数共享信息收录

公司机密和敏感信息，因此共享的信息很少（例如，妥协指标 (IoC)）。

　　此外，韩国大部分机构和企业甚至无法正确识别资产信息，即使拥有CTI数据，也不知道如何利用碎片化的信息。表 1 显示了资产与 CTI 数据之间相关性分析的示例。

　　CTI数据

　　资产数据

　　操作内容

　　TLS 1.1 中的 RC4

　　在遗留系统中使用 RC4

　　建议使用一段时间后删除RC4以维护旧系统（Explorer for XP）

　　可以通过 DELETE 方法使用 REST API

　　使用删除方法 X

　　IPS、WAF等中的方法去除或方法限制

　　FTP端口默认打开

　　服务器上未安装 FTP

　　服务器操作 X

　　为了解决上述局限性，本文介绍了一种使用 OSINT 的网络威胁信息采集

和关联表达系统，该系统目前由 KISA 开发。

　　2. 基于OSINT的网络威胁信息采集

与关联表达系统

　　目前，KISA 正在开发的网络威胁信息采集

和关联表达系统旨在克服第 1 章介绍的限制，创建可用的 CTI，这是一个可视化表达信息的系统。【图4】为KISA目前正在开发的系统（以下简称“威胁信息采集

系统”）的架构图。

　　2.1 OSINT（开源情报）采集

渠道

　　所谓OSINT是指可以从开源中采集

到的信息，本文中指的是网络安全领域的TIS（Threat Intelligence Service）和TIP（Threat Intelligence Pltform）提供的信息。在“威胁信息采集

系统”中，如表2所示，从24个采集

渠道采集

OSINT。

　　2.2 网络威胁信息采集

框架

　　在现代社会，每天都会产生大量的信息，足以称之为信息洪流，而通过OSINT提供的信息也非常庞大，形式多样。为了有效地采集

这些不同的 OSINT，“威胁信息采集

系统”由威胁管理服务器（TMS）和威胁采集

代理（TCA）组成。TMS根据各采集通道采集的信息量动态分配TCA，调整工作量，将TCA采集的信息转换成预定义的DB存储结构进行管理。TCA 根据从 TMS 接收到的环境设置信息构建一个采集环境，从采集通道采集信息。

　　“威胁信息采集系统”的采集过程大致分为三个阶段，第一阶段为工作通道和命令（索引）阶段。选择工作负载和优先级。第二步是有效负载阶段，它根据索引过程中计算的工作负载动态分配 TCA。第三步是数据解析步骤，从目标采集通道解析数据，解析后的数据传输到TMS，存入DB。[图6]显示了网络威胁信息采集

框架。

　　2.2.1 网络威胁信息历史记录管理

　　通常，通过 OSINT 渠道提供的信息是碎片化的信息，例如黑名单 IP 地址和信誉信息、域、URL 和哈希指标。由于大部分信息都是过去的信息，分析侵权事件后分享出来，如图所示，渠道各不相同。尤其是IP地址、域名、DNS等信息，即使在过去的某个时间点被盗版事件所使用，通过安全补丁也可能不再容易受到攻击。但是，由于很难通过一般的 OSINT 渠道采集

此类信息，因此“威胁信息采集

系统”是通过韩国互联网安全厅目前运营的 C-TAS（网络威胁分析和共享系统）采集

的。

　　要利用基于 OSINT 的 CTI，采集

信息的历史管理非常重要。“网络威胁信息采集

系统”通过重新分类查询来管理通过 OSINT 渠道获得的信息之间的采集

历史。首先，当通过TCA采集

到侵权指标等零碎的威胁数据时，TMS会根据这些信息向VirusTotal、OTX、C-TAS通道发送查询，并将与侵权指标相关的相关信息发送并保存到数据库中台。此外，为了管理采集

历史记录，它会根据存储在数据库中的信息定期向提供相关信息的渠道发送查询，以保持威胁信息的同步。

　　2.2.2 利用自然语言处理采集

侵权事件相关信息

　　即使像第 2.2.1 节那样管理网络威胁信息的历史并且克服了 OSINT 提供的信息的局限性，为了建立可以灵活使用的 CTI，已经使用的策略、技术和程序在违规事件中必须有到位的TTPs（战术、技术、程序）信息。相关信息通常可以通过*敏*感*词*安全风险分析报告或TIS获得。[图。[图8]展示了利用自然语言处理模块从各种侵权事件/威胁分析报告中采集

侵权相关信息（如TTP）的过程。

　　侵权/威胁报告通常以 pdf、word 或 hwp 格式共享。一些 pdf 以图像形式共享，但通过 pdfminer 等开放库从此类 pdf 中提取文本是有限的。此外，由于报告中的网络威胁信息以图片、表格、简单文本等多种形式存在，谷歌提供了OCR（光学字符识别）功能，可以从“威胁信息采集

系统”中提取完整的信息。信息通过 Cloud Vision API 提取。

" />

　　从报告中提取文本后，通过 CRF（条件随机场）执行个人名称识别，以找出每个网络威胁消息的样子。交叉引用是通过识别额外的词来解决的，例如受害者 IP 和 17x.xxx.xx.54，这些词与对象名称标识一起引用了报告中存在的相同威胁信息。此外，为了从报告中提取 TTP，依赖性被识别为参与者标签（POS；词性）信息和依赖性解析结果属于哪个描述符。标识依赖关系的威胁信息分为是侵权IP还是散布IP。

　　2.2.3 安全日志数据链接

　　为了有效地利用CTI，需要从组织和企业运行的各种安全设备的日志中识别出存在哪些类型的威胁以及与CTI相关的威胁类型。为此，必须能够比较和分析公司保留的各种类型的安全日志和 CTI 数据。《威胁信息采集系统》使公司安全能够接收csv格式的数据，并按照预定义的数据类型存储到DB中。如果存在与预定义数据类型不匹配的数据，则可以通过用户定义来定义新类型，如图[9]所示。

　　3.结论

　　随着网络攻击在全球范围内变得越来越智能和先进，越来越需要 CTI 来降低威胁响应成本并快速响应。

　　在本文中，我们介绍了一种网络威胁信息采集

系统，用于生成目前由 KISA 开发的可用 CTI。到目前为止，通过该系统采集

的网络威胁信息及相关信息总数为769,357,338条，各主要网络威胁信息类型（如IP、域名、CVE、email、hash）的采集

量如图[10] ] 。

　　通过本文提出的系统，预计可以更轻松地采集

网络威胁信息，并且可以创建可用的 CTI 并在整个行业中使用，以促进网络威胁响应的发展。

　　（图 10）主要网络威胁

　　参考：

　　[1] ISTR 2019 年第 24 卷，om/content/dam/symantec/docs/reports/istr-24-2019-en.pdf，赛门铁克

　　[2] M-Trends 2019，t-threats/annual-threat-report.html，FireEye

　　[3] 网络威胁情报（CTI）的演变：2019 SANS CTI调查，/reading-room/whitepapers/threats/paper/38790，SANS

　　[4] 开源情报框架，

　　[5]

　　[6]김낙현，이슬기，김병익，조혜선，박준형，“기계학습의사이버협협”，대한대한전자회학술하계학술학술학술대회대회대회대회대회대회，第368-371页

　　[7]이슬기，조혜선，김낙현，김병익，박준형，“토픽모80osint기반기반활용사이버위협인텔리전스생성을을위협정보정보수집수집시스템델링기반기반사이버사이버위위 19(2), pp.225-226, 2018

　　[8]임원식，윤명근，조학수，“ kosign：정보정보관점사이버협공유체계”，한국한국보호보호학학，28（2），pp.20-1

　　[9] U. Noor、Z. Anwar、U. Noor、Z. Anwar 和 Z.Rashid，“An Association Rule Mining-Based Framework for Profiling Regularities in Tactics Techniques and Procedures of Cyber Threat Actors”，2018 年国际会议关于智能计算和电子企业 (ICSCEE), 2018, pp.1-6, 2018

　　[10]이슬기，김경한，김병익，“”，“사이버공격방지한대응위한위한사이버위협인분석기술”，한국한국학회기술기술기술기술기술학회학회학회학회학회학회학회학회추계대회대회대회대회，26（2），pp.420-423，2019，2019，2019，2019，2019，2019，2019，2019，2019，2019，2019

　　[11] 박순태, 김병익, 이슬기, “사이버위협인텔리전스(CTI) 기술을활용한공격자프로파일링

0

2022-11-21

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:如何高效进行数据采集，这里有一套完整方案

0 个评论

发起人