TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

大数据开发工程师-第十三周 综合项目:电商数据仓库之商品订单数仓2

发表于 2023-04-05 | 分类于 大数据开发工程师 , 大数据
字数统计: 5.8k | 阅读时长 ≈ 23
第十三周 综合项目:电商数据仓库之商品订单数仓2拉链表什么是拉链表1234针对订单表、订单商品表,流水表,这些表中的数据是比较多的,如果使用全量的方式,会造成大量的数据冗余,浪费磁盘空间。所以这种表,一般使用增量的方式,每日采集新增的数据。在这注意一点:针对订单表,如果单纯的按照订单产生时间增量采集数据,是有问题的,因为用户可能今天下单,明天才支付,但是Hive是不支持数据更新的,这样虽然MySQL中订单的状态改变了,但是Hive中订单的状态还是之前的状态。 1234想要解决这个问题,一般有这么几种方案:第一种:每天全量导入订单表的数据,这种方案在项目启动初期是没有多大问题的,因为 ...
阅读全文 »

大数据开发工程师-第十三周 综合项目:电商数据仓库之商品订单数仓

发表于 2023-04-05 | 分类于 大数据开发工程师 , 大数据
字数统计: 5k | 阅读时长 ≈ 24
第十三周 综合项目:电商数据仓库之商品订单数仓123和之前用户行为数仓构建步骤一样,先对下面两层进行构建,上面两层基于业务需求来构建这两层的表服务端数据在mysql中的表如下:(已通过sqoop抽取到hdfs上,只需要创建表将数据关联起来就可以了) 1hdfs上商品订单数据相关目录 ods层 建表脚本ods_mall_init_table.sh1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162 ...
阅读全文 »

大数据开发工程师-第十二周 综合项目:电商数据仓库之用户行为数仓4

发表于 2023-04-04 | 分类于 大数据开发工程师 , 大数据
字数统计: 14k | 阅读时长 ≈ 70
综合项目:电商数据仓库之用户行为数仓41截止目前hdfs上,用户行为数据目录结构的样子 用户行为数据数仓开发 12数据仓库分为 4层:ods层、dwd层、dws层、app层,我们先来构建第一层:ods层 123456注意:1:由于在构建数据仓库的时候我们会创建多个数据库,所以在创建以及使用表的时候最好都在表名前面带上对应的数据库名称,否则可能会出现一些不必要的问题,可能会把ods层的表建到dwd层。2:考虑到SQL重跑的情况,需要在SQL语句中添加if not exists3:hive中可以用string、date和timestamp表示日期时间,date用yyyy-MM-d ...
阅读全文 »

大数据开发工程师-第十二周 综合项目:电商数据仓库之用户行为数仓3

发表于 2023-03-30 | 分类于 大数据开发工程师 , 大数据
字数统计: 6.9k | 阅读时长 ≈ 31
电商数据仓库之用户行为数仓3-数据生成与采集12接下来我们就来开发第一个模块:数据采集模块这一块内容在开发的时候,我们需要先生成测试数据,一份是服务端数据,还有一份是客户端数据 数据生成【客户端数据】用户行为数据123首先我们模拟生成用户行为数据,也就是客户端数据,主要包含用户打开APP、点击、浏览等行为数据用户行为数据:通过埋点上报,后端日志服务器(http)负责接收数据埋点上报数据基本格式: 12345678910111213141516{"uid":1001, //用户ID"xaid":"ab2 ...
阅读全文 »

大数据开发工程师-第十二周 综合项目:电商数据仓库之用户行为数仓2

发表于 2023-03-30 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.6k | 阅读时长 ≈ 9
第十二周 综合项目:电商数据仓库之用户行为数仓2电商数仓技术选型1咱们前面对项目的需求进行了分析,整体上来说是需要三个大的功能模块,那下面我们就来分析一下,想要实现这些功能模块,具体使用哪些技术框架比较合适 数据采集12345678首先是数据采集:咱们前面学习了Flume这个数据采集工具其实还有一些类似的数据采集工具,Logstash、FileBeat,这两个也可以实现数据采集那这三个日志采集工具我们需要如何选择呢?首先从性能消耗上面来说,Flume和Logstash的性能消耗差不多,都是基于JVM执行的,都是重量级的组件,支持多种数据源和目的地。FileBeat是一个只支持文件数 ...
阅读全文 »

大数据开发工程师-第十二周 电商数据仓库之所有表概况

发表于 2023-03-30 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.6k | 阅读时长 ≈ 15
第十二周 综合项目:电商数据仓库之所有表概况用户行为数仓所有表12345678910111213141516{"uid":1001, //用户ID"xaid":"ab25617-c38910-m2991", //手机设备ID"platform":2, //设备类型, 1:Android-APP, 2:IOS-APP, 3:PC "ver":"3.5.10", //大版本号&qu ...
阅读全文 »

大数据开发工程师-第十二周 综合项目:电商数据仓库

发表于 2023-03-30 | 分类于 大数据开发工程师 , 大数据
字数统计: 6.2k | 阅读时长 ≈ 21
第十二周 综合项目:电商数据仓库之用户数据行为数仓电商数据仓库效果展示12345大家好,下面我们来学习一个电商行业的数据仓库项目首先看一下项目效果本身我们这个数据仓库项目其实是一个纯后台项目,不过为了让大家能够更加直观的感受项目的效果,我们可以基于数据仓库中的数据统计一些指标进行展现。我们这个项目要讲的重点不是这个大屏,这个大屏只是一个效果,为了让大家感受更加直观一些而已,我们主要讲的是这些指标对应的底层数据是如何在数据仓库中一层一层构建的。 项目的由来1234567891011接下来我们来看一下这个项目的由来,我们为什么要做这个数据仓库项目呢?或者说做这个数据仓库项目有什么意义 ...
阅读全文 »

廖雪峰Java教程笔记-Java程序基础 数组类型

发表于 2023-03-29 | 分类于 廖雪峰java笔记
字数统计: 640 | 阅读时长 ≈ 2
数组类型法一123456789101112使用数组来表示“一组”int类型。代码如下:public class Main { public static void main(String[] args) { // 5位同学的成绩: int[] ns = new int[5]; ns[0] = 68; ns[1] = 79; ns[2] = 91; ns[3] = 85; ns[4] = 62; }} 1234567 定义一个数组类型 ...
阅读全文 »

廖雪峰Java教程笔记-Java程序基础 变量和数据类型

发表于 2023-03-29 | 分类于 廖雪峰java笔记
字数统计: 4.5k | 阅读时长 ≈ 18
变量和数据类型变量1在Java中,变量分为两种:基本类型的变量和引用类型的变量。 1234*先定义再应用**可以一次性多个定义和赋值**没有赋值,将自动赋默认值(基本数据类型)**可以将一个基本数据类型变量赋值给另一个基本类型变量。不是指向同一个地址* 基本数据类型有 1234567891011~~~+ 整型 byte,short,int,long+ 浮点型 float,double float要加上f或F,double可以省略+ 字符型 char 用单引号+ 布尔型 false,true~~~```不同的数据类型占用的字节数不一样。我们看一下Jav ...
阅读全文 »

廖雪峰Java教程笔记-Java程序基础 Java程序基本结构

发表于 2023-03-29 | 分类于 廖雪峰java笔记
字数统计: 274 | 阅读时长 ≈ 1
java程序基本结构类名规范12+ 首字母大写+ 字母开头,数字,下划线组合 方法名规范1命名和class一样,但是首字母小写 12345这里的方法名是main,返回值是void,表示没有任何返回值。我们注意到public除了可以修饰class外,也可以修饰方法。而关键字static是另一个修饰符,它表示静态方法,后面我们会讲解方法的类型,目前,我们只需要知道,Java入口程序规定的方法必须是静态方法,方法名必须为main,括号内的参数必须是String数组。每一行语句,分号结尾 注释方法123+ //+ /*... */+ /** ...
阅读全文 »
上一页1…567…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%