第十八周 直播平台三度关系推荐v2.0-3
数据中台的前世今生
什么是中台
1 | 中台是2019年开始火起来的一个概念,它最早是由阿里在2015年提出的“大中台,小前台”战略中延伸出来的概念,灵感来源于一家芬兰的小公司Supercell——一家仅有300名员工,却接连推出爆款游戏,是全球最会赚钱的明星游戏公司。2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的这家移动游戏公司,这家看似很小的公司,设置了一个强大的技术平台,来支持众多的小团队进行游戏研发。这样一来,他们就可以专心创新,不用担心基础却又至关重要的技术支撑问题。恰恰是这家小公司,开创了中台的“玩法”,并将其运用到了极致。 |
传统IT时代

1 | 在传统IT时代,无论项目如何复杂,都可以分为 前台 和 后台 两部分,简单明了。 |
传统IT时代存在的问题

1 | 发展到现在这个时代,传统的前台+后台这种架构是存在一些问题的,每一个产品线之间都会有一些重复的内容,例如这里面的用户模块和支付模块,每一个产品线都需要,如果每一个产品线都是自己开发自己的,这样就会有三套用户模块和支付模块,对于集团公司而言,这就叫重复造轮子。如果后期又增加了新的产品线,还要重新再开发用户模块和支付模块。 |

1 | 本来是各个部门都建立了自己的数据采集,数仓,数据模型等内容,重复开发,浪费成本。各个部门的数据也没有打通,数据很难产生很大的价值。 |
阿里”大中台小前台架构 ”
1 | 接下来这个是阿里的大中台 小前台架构 |

1 | 阿里许多产品线的共通业务经过下沉,形成了中台的各种业务中心,为各大业务线提供支持。 |
中台架构主要解决的问题
1 | 下面我们来总结一下中台这种架构主要解决的问题。 |
中台的延伸
1 | 中台是一个大而全的概念,基于中台延伸出了多个方向 |
阿里中台技术栈全景
1 | 接下来我们来看一下阿里的中台技术栈全景 |

1 | 最下面是一些基础设施和基础中间件 |
什么是数据中台
1 | 前面我们讲了什么是中台,中台其实是一个统称,基于中台也延伸出了很多分支。 |
数据中台的演进过程
1 | 数据中台并不是直接就有的,也是根据时代的发展,企业的需求,一步一步演进出来的。 |
数据中台 VS 数据仓库
1 | 数据仓库主要支持管理决策和业务分析 |
数据中台需要具备的四大能力
1 | 根据我们前面对数据中台的分析,总结起来,数据中台需要具备以下能力: |
数据中台架构
数据中台总体架构图
1 | 前面我们通过理论层面对数据中台有了一定的了解,下面我们通过架构层面来详细看一下数据中台的设计 |

1 | 数据中台是位于底层存储计算平台与上层的数据应用之间的一整套体系。 |
1 | 数据汇聚 |
1 | 这是一个典型的数据中台总体架构设计。 |
数据中台 四字箴言
1 | 如果大家之前没有工作过的话,可能对数据中台还是不好理解,所以在这我将数据中台的功能总结为四个字:采、存、通、用 |
1 | 下面我们来详细分析一下这四字箴言 |
1 | 存 |
1 | 通 |
1 | 用 |
什么样的企业适合建设数据中台
1 | 前面我们分析了什么是数据中台,数据中台的好处,以及数据中台的架构,是不是所有的企业都需要构建数据中台呢? |

1 | 看这个案例: |
数据应用成熟度的四个阶段
1 | 当然了,评价一个企业是否适合建设数据中台,也是有一些量化指标的,可以根据企业中的数据应用成熟度来进行判断,我们可以把企业中数据应用成熟度分为四个阶段 |

1 | 第一阶段:统计分析阶段 |
案例分析
1 | 下面有几个小案例,我们来分析一下 |
数据中台企业级解决方案
1 | 前面我们对数据中台的理论进行分析,下面我们来看一下,数据中台在一些大型企业中的落地方案 |
阿里数据中台
1 | 在国内,”中台”的概念是阿里带头喊出来的,所以我们先来看一下阿里的数据中台方案 |

1 | 最底层是计算和存储平台 |

1 | OneData(统一数据):定义数据标准与建模标准,对离线数据、实时数据建立数据资产体系 |
菜鸟数据中台

1 | 整体技术架构,分三层,底层是基础设施,基础平台,中间是中台,上面是前台。 |
滴滴数据中台

1 | 最底层是数据架构:数据架构体系包含了当前大数据领域主流的技术 |
苏宁数据中台

1 | 最底层是大数据计算存储引擎 |
华为云数据中台

1 | 华为云数据中台在这里可以划分为三块 |
浙江移动数据中台

1 | 浙江移动打造的数据中台,是为了实现跨域数据整合并沉淀公共的数据能力,同时提供丰富的数据模型,标准化的数据服务,个性化的开发平台与工具,满足一线数据开放和智慧运营的要求。 |
某大数据服务商数据中台

1 | 底层是基础设施和计算层 |
某企业数据大脑

1 | 这个是某企业的数据大脑总体设计,里面包含了数据中台。 |

1 | 到这为止,我们分析了多个企业的数据中台,虽然这些企业的数据中台架构没有完全一样的,但是总结下来我们会发现,他们里面都会有一些共同的核心内容。 |
数据中台之数据加工总线
目前大数据领域实时计算的现状
1 | 随着大数据行业的整体发展,企业对实时计算的需求越来越多,特别是在构建实时数仓的时候,需要接入很多实时数据源,并且数仓还是分层的,针对每一层的数据都需要进行实时计算,此时就需要开发很多实时计算程序,实时计算程序的复用性很低,针对每一种类型的数据都需要开发对应的实时计算程序,开发成本高,并且对程序员也不友好,需要专门的大数据开发工程师,所以我们希望在实时计算领域能够提供类似HiveSQL的功能,直接写SQL就能实现实时计算任务,不需要每次都写一堆的代码,提高工作效率,尽可能让会只会SQL的普通开发人员也能轻松的开发实时计算任务。 |
什么是数据加工总线
1 | 为了使实时数据的处理能够更加高效、简单,所以我们研发了一站式实时数据开发平台。只需要在页面选择数据源、目的地以及对应的SQL计算逻辑,就可以轻松实现海量实时数据计算任务的开发。 |
数据加工总线原型图总览
1 | 由于数据加工总线涉及前端和后端,在企业中前端代码有专门的同事负责开发,我们大数据部门只需要负责后台功能开发即可,所以在课程中不涉及前端页面代码,在这里通过原型图来演示一下数据加工总线具体的使用流程,加深大家的理解。 |

数据加工总线架构图V1.0
1 | 接下来看一下数据加工总线的后台架构图 |

1 | 数据源和目的地都是Kafka,因为目前在大数据领域,实时数据一般都是用的Kafka。 |