当前位置: 主页 > 外烟分类 > genie是什么程序(genie中文是啥名字)

genie是什么程序(genie中文是啥名字)

发布日期:2021-12-20 12:46 作者:shunf外烟
外烟资讯

本文主要讲解“Genie有什么特点”,感兴趣的朋友不妨看看。本文介绍的方法简单、快速、实用。让边肖带你学习“精灵有什么特点”!

随着数据时代的到来,数据量和数据复杂度的增加推动了数据工程的快速发展。为了满足各种数据采集/计算需求,业界出现了许多解决方案。然而,大多数程序遵循以下原则:

易人贷的数据服务平台也遵循这三个原则。我有幸亲身体验了戴月数据平台Genie的整个开发过程。纵观宜人贷款和行业,可以说Genie的发展是工业数据平台发展的缩影。

谷歌三大论文和Apache Hadoop开源生态系统的发布,应该是大数据处理技术进入“寻常百姓家”的起点。Hadoop组件可以在普通廉价机器上运行,其代码也是开源的,因此在很多公司都得到了普及。那么这些公司最初用它做什么呢?

因此,早期数据平台的通用架构由Sqoop HDFS Hive组成,这是构建数据仓库最便宜、最高效的方式。此时数据仓库只能回答过去发生的事情(离线阶段),因为Sqoop离线提取一般采用t 1快照方案,也就是说只有昨天的数据。

然后,由于对实时数据的需求不断增加,需要实时进行增量数据的关联聚合等复杂操作。此时数据平台将加入分布式流计算的架构,如Strom、Flink、Spark Streaming等。此时,数据仓库可以回答正在发生的事情(实时阶段)。

架构有很多,比如早期的Lambda、Kappa等,因为离线数据处理过程(比如Sqoop HDFS Hive)和实时数据处理过程(比如Binlog Spark Steaming Hbase)在计算逻辑上是耦合的,只能通过组合来支持实时数据分析。此时,历史数据和实时数据结合数据仓库可以回答最终会发生什么(预测阶段)。

数据平台的发展已经不能用数据仓库来解释。它与各个业务部门(如营销、销售和运营)密切合作,创建了许多数据产品。这时,数据仓库(数据平台)已经进入主动决策阶段。

数据平台应该是基础设施的重要组成部分。曾经互联网行业很多公司跟风建设大数据集群,发现难以充分发挥其真正价值。其实最重要的原因应该是数据的使用和数据平台的定位。当前数据平台的定位有以下几点:

运营、营销、决策层直接使用平台,大部分是直接查看BI报表。在对业务需求进行梳理之后,业务分析师会将需求提供给数据仓库工程师,然后专业的数据仓库工程师会在现有的公司级数据仓库中增加新的需求。数据工程团队主要负责集群的运行和维护。

决策层使用报表时,总是落后一拍,总会有新的需求。原因很简单:其实互联网公司的业务并没有传统行业(如银行、保险等)稳定。),因为互联网公司发展比较快,业务更新迭代也快。

集群运维难度大,作业间耦合性太大。比如A业务的表A失败,直接影响到整个公司的所有岗位。

数据仓库的能量转移到更基础、更底层的数据问题上,如数据质量问题、数据使用规范、数据安全问题、模型架构设计等。

宜人贷属于互联网金融公司。由于其金融属性,对平台的安全性、稳定性和数据质量的要求比普通互联网公司更高。目前宜人贷的数据结构中,数据总量为PB,日增量为TB。除了结构化数据,还有日志、语音等数据。应用类型分为运营和营销两大类,如智能销售、智能营销等。数据服务

以上是平台底层的技术架构图,整体是一个Lambda架构。批处理层负责t 1的数据计算,大部分的调度报表和数据仓库/市场的主要任务都在这个层处理。速度层负责计算实时增量数据、实时数据计数、增量实时数据同步、数据产品等,主要使用这一层的数据。批处理层通过sqoop定时同步到HDFS集群,然后通过Hive和Spark SQL进行计算。批处理层的稳定性比运行速度更重要,所以我们主要优化稳定性。批处理层的输出是批处理视图。与批处理层相比,速度层的数据链路更长,体系结构相对复杂。

DBus和虫洞是CreditEase的开源项目,主要用作数据管道。DBus的基本原则是阅读

数据库的binlog来进行实时的增量数据同步,主要解决的问题是无侵入式的进行增量数据同步。当然也有其他方案,比如卡时间戳,增加trigger等,也能实现增量数据同步,但是对业务库的压力和侵入性太大。Wormhole的基本原理是消费DBus同步过来的增量数据并把这些数据同步给不同的存储,支持同构和异构的同步方式。

  总体来说Speed layer 会把数据同步到我们的各种分布式数据库中,这些分布式数据库统一称为Speed view 。然后我们把Batch和Speed的元数据统一抽象出来一层叫Service layer。Service layer 通过NDB对外统一提供服务。因为数据有两个主要属性,即data=when+what。在when这个时间维度上来说数据是不可变的,增删改其实都是产生了新的数据。在平时的数据使用中我们常常只关注what的属性,其实when+what才能确定data的唯一不可变特性。所以按照时间这个维度我们可以对数据进行时间维度的抽象划分,即t+1的数据在Batch view,t+0的数据在Speed view 。这是标准Lambda架构的意图:把离线和实时计算分开。但是我们的Lambda架构有些许差异(此处不做过多表述)。

  要知道集群资源是有限的,把离线和实时等计算架构放在一个集群内必然会出现资源抢占的问题。因为每个公司的计算存储方案可能不一样,我在这里仅仅以我们的方案为。

网友转载外烟请保留链接:本文链接genie是什么程序(genie中文是啥名字),http://fiows.com/lunwenfenxiang/49415.html谢谢合作!



<<分离小三成功再交费的公司,小三分离师靠谱吗   招聘费用计入什么科目,招聘费用会计分录>>

相关阅读:

iphone 11 pro max与iphone 12pro(2 max1) CES 2022-在Covid Surge、AMD和一加退学,加入微软、谷歌和英特尔。 iPhone 14谣言 – 发布日期,价格,SIM卡等(iphone14最新官方消息) 2022年最佳小手机