官方数据:数据中台实战(五):自助分析平台
优采云 发布时间: 2022-10-27 16:21官方数据:数据中台实战(五):自助分析平台
本文作者详细介绍了开发自助分析平台的重要性,自助分析平台的具体方案和选择,一起来看看吧。
1. 为什么要开发自助分析平台
上一篇文章讲了《数据中心实战介绍:数据中心内外部合作机制》。这时候数据中心团队做了几个比较大的功能模块,和各个产品线的合作越来越紧密。
每个产品线每个月都有一些数据需求,每个产品线有N个指标。数据中心的主要开发任务是数据指标。现在发现开发资源已经跟不上运营需求的速度了。如果每个指标都遵循前面的流程,开发周期会很长。
这时候和团队的技术负责人商量,决定引入一套自助分析工具,让数据中心只负责指标的计算,即模型设计和数据开发,最终计算结果与自助分析工具相结合。,操作可以通过拖放形成自己的看板。
对于一些特殊的需求,后端开发和前端都涉及到,这样后端开发和前端开发就可以做一些其他大模块的开发。
过去,一个数据指标的开发需要产品经理、模型设计师、数据开发、后端开发、前端开发、测试、UI。现在只有一些特殊需求需要后端开发和前端开发的参与,直接增加30%左右。开发效率。
2.自助分析平台产品解决方案
我们先来看看市面上的数据产品是怎么做看板模块的:市面上比较成熟的数据产品:Growingio、诸葛io、神策。你会发现他们的产品有一个共同点,它们都只有两大功能:一是数据仪表盘,二是分析模块。
我们先说看板功能。简而言之,一个是制作看板,另一个是使用看板(我的看板)。逻辑是首先创建看板。通过选择指标、维度、过滤条件、特殊条件等选项,您可以通过拖放自定义自己的看板。看板完成后,将其分类形成自己的看板库。
还有一个功能就是使用看板,你可以把看板库中的看板拿出来,组成自己的看板。该板可同时在手机和PC上展示,也可以通过地址与他人共享或以H5的形式嵌入到其他产品中。
创建看板功能
我的看板功能
这种看板功能与传统看板功能的一大区别在于,用户只看到自己关心的数据,形成了看板的“千人千面”。
另外,因为看板是配置的,所以可以省去很多前端开发和后端开发。基础看板可以由运维同事配置,前端开发只需要解决一些特殊需求即可。
有了这样的功能,以后无论有多少产品线接入数据中心,这些产品线的看板功能都不需要一个一个开发,会节省大量的开发资源。
三、自助分析平台的技术选型
如此强大的看板功能如何实现?
从头到尾开发一套会花费大量的开发成本。我拉了数据中心的技术负责人,告诉他这个功能的重要性。
正好我们的技术总监对这块还有一些研究,给我看了三种市场上比较成熟的自助分析框架。我们可以将这些框架与数据中心整合,形成数据中心自助分析模块。
一个是商业收费的大数据可视化组件,叫做饭软,在国内比较好用。还有两个开源工具,叫做 DaVinci 和 supset。达芬奇是国内源组件,苏塞特是国外源组件。让我们来看看每一个。
1.范软
再来看看帆软的报表制作流程:第一步是对数据源数据源进行处理,这需要技术人员将数据库数据链接到帆软,对数据进行进一步的处理;
主要是将数据库表字段转换为操作和产品可以理解的名称。
可以通过URL连接各种数据库
字段可以重命名
操作者可以通过选择数据源、字段名称和计算方法来配置他们想要的图表。
图表可以通过多种方式显示,包括报表、折线图、饼图、条形图和其他常规图表。
2. 达芬奇
达芬奇有几个功能:
(1)数据源管理,主要是数据开发。数据开发需要将计算出来的数据,一般是广告层的数据,同步到达芬奇,达芬奇支持n个数据源的链接。
(2)数据提取之后,还有一个问题是原创数据操作者无法理解的,因为都是数据库字段,技术性比较强,需要一层层处理,至少要重命名字段。,这里还是需要数据开发技术人员来处理的。
(3) 第三个功能 Kanban Maker,操作可以直接使用。
操作员看到处理后的数据。通过拖放尺寸、指标、过滤条件等指标,即可完成看板的制作。看板可以显示在类似 excel 的报告中,以及常规的条形图、折线图和饼图。.
(4) 最后一个功能是我的看板。操作人员可以快速找到自己的看板,形成自己的看板。看板位置可以拖拽调整,每个看板界面都会生成分享链接,可以导出看板数据分享。
3. 超级组
Superset 具有与达芬奇类似的功能。它也有数据源访问和看板制作,但没有看板管理功能。
Superset 作为一个整体仍然是技术性的。很多地方都需要写sql,而且即使想让它看起来更好,也需要写css。但它更灵活,图表可视化甚至可以与echart对接。
您可以查看其中一些接口。Superset主要用于技术人员管理数据源。
Superset的kanban maker功能有很多技术人员使用的SQL、JASON、CSS等词。这些操作和产品很难理解。
Superset的看板管理器也有分享功能,但是不能通过拖拽改变看板的位置。但是Superset可以集成第三方看板管理功能,比如百度的E-chaet
Superset是专门为技术人员或懂SQL的人提供的SQL可视化工具。
定论
我们已经了解了三种可视化自助服务分析工具。当然,饭软是最好的,也有最好的体验,但它不是开源产品,需要收费。
由于它不是开源的,没有源代码,我们很难做集成。我们希望制作看板的界面可以直接对产品和操作开放,直接在数据中心操作。范软无法整合。
对于补充,还是有点技术性的,至少懂SQL的人才会用。对数据分析师开放是没有问题的,但是要开放给运营使用还是太难了。
达芬奇是一个妥协的选择。看板生产和看板管理功能可以直接对操作和产品人员开放。
另外,因为达芬奇是开源的,所以可以直接集成到数据中心,但是唯一的缺点就是功能太简单了。例如,当我们在寻找指标时,会显示一个分页列表。很多,而且很难快速找到我们想要的指标。
最终我们决定使用开源的达芬奇作为自助分析平台的底层开发框架,但是我们需要做一些定制化开发:
指标可以分为模块和类别,可以支持简单快速的指标搜索。这样,产品和开发同事可以快速找到他想要的指标。这需要更改源代码,可以通过前端开发来完成;移动端也必须有我的看板功能。达芬奇制作的看板可以自适应显示在屏幕上,支持H5,每个看板都会生成一个地址。我们需要做的就是保存每个用户创建看板的地址,然后让前端开发加载这个地址。这使得我的看板功能很容易完成。
尽快引入数据中心的自助分析平台,因为它可以解决你70%-80%的看板需求,而且看板的设计思路更加人性化。
一指标一界面的传统功能无法满足所有人。只要你指导产品和运营人员学习这样配置看板,他们看到的数据就是他们关心的数据。
事实:有跟优采云采集器一样的免费采集器吗(优采云数据采集器)
目录:
1. 优采云采集器有免费版吗?
类似于优采云的采集器,我们先了解一下优采云采集的原理,优采云采集的内容主要看你的规则编写获取某个网页的所有内容,需要先获取该网页的URL,然后编写code标签获取文章的标题和内容(需要了解html代码知识)今天分享给大家的这个采集器 无需学习任何技术,简单三步即可轻松抓取网页数据,支持多种格式一键导出或批量处理内容并快速发布到网站 背景。
2. 优采云采集器如何采集数据
详细参考图片
3、优采云采集器有什么用
我们知道搜索引擎要收录我们的网站,就会安排搜索引擎的蜘蛛程序去爬取网站。如果我们想让蜘蛛成功抓取我们的网站内容,那么我们必须保证我们的网站内容可以被搜索引擎蜘蛛正常抓取,并且每个页面都必须可以通过URL链接访问。我们都见过蜘蛛织网,但实际上我们在进行内部链接构建时使用了相同的原理。文章 或 网站 内的网页像蜘蛛网一样链接在一起,让蜘蛛无论来自哪个方向都可以顺利访问每一篇文章。。
4.优采云采集器免费版和付费版的区别
内容过于简单和简单。这是SEO新手容易犯的问题。我经常在 Internet 上看到一些公司网站发布的 文章。打开链接,加上标题,只有5行字,总共不到200字。文章最好不要发帖,没有其他内容。搜索引擎最不喜欢这种内容。这样的公司肯定会在网站外发布一堆相同的内容。搜索引擎很容易认为这是一个垃圾网站,刚学SEO的朋友要注意了,这种问题也是最明显也最容易解决的。一篇文章文章不需要太多500字以上,配几张相关图片,就可以解决一些具体客户的问题,这才是合格的<
5. 优采云采集器 是做什么的
搜索引擎想要向用户提供网站信息,需要完成三个主要任务:爬取网站(Crawing)会有很多蜘蛛程序,一个网站,一个网站网站内容创建索引(Indexing)的URL Crawling对蜘蛛爬取的内容进行分类,创建相关索引,并存储在数据库中。
6. 类似优采云采集器的软件
排名 为可能的问题建立相关性排名,最相关的内容位于顶部。
7. 优采云采集器采集网址
当然,技术实现非常复杂。作为一个新的 SEO 人,您可能不需要深入研究这些问题。当你大学毕业时,你的毕业设计是一个搜索引擎。当然,当时使用的是第三方索引分词。库,我们大部分时间只需要配置规则。我会写一些更深入的内容文章来分享。
8. 优采云采集器好用吗?
如果一个搜索引擎想向用户展示相关的内容,第一步就是发送它的小兄弟,搜索引擎爬虫(蜘蛛),他们会不断地在互联网上爬取新的内容,或者更新数据库中的旧内容,那里是各种形式的内容,可能是网页、PDF文件、MP3音频文件等,但都是通过URL找到这些内容的。
9. 优采云采集器可以采集什么
搜索引擎索引(Indexing)是一个非常复杂的过程。这个过程涉及的内容多为计算机内容,包括算法、地理环境、社会学研究等因素。要控制这些内容的分类,但最重要的一点是这些内容的相关性。相关性越高,被归入同一类别的可能性就越大。建立索引是为了为以后快速呈现给用户做准备。,这也为排名提供了数据基础。
10. 优采云采集器收费与免费的区别
搜索引擎排名(Ranking) 用户在搜索引擎输入框中输入他的关键词,搜索引擎会以惊人的效率在他庞大的索引数据库中找到相关内容,并根据内容的相关性和其他一些参数用于对内容进行排序。这个过程就是搜索引擎排名。在搜索引擎看来,置顶内容是与用户问题更相关的答案。
如果我们不希望搜索引擎向用户显示某些内容,可以这样做,但大多数情况下我们不会这样做。搜索引擎优化的目的是让用户看到我们,让搜索引擎优先展示我们希望用户看到的东西。