大数据开发工程师-第十三周 综合项目:电商数据仓库之商品订单数仓2
第十三周 综合项目:电商数据仓库之商品订单数仓2拉链表什么是拉链表1234针对订单表、订单商品表,流水表,这些表中的数据是比较多的,如果使用全量的方式,会造成大量的数据冗余,浪费磁盘空间。所以这种表,一般使用增量的方式,每日采集新增的数据。在这注意一点:针对订单表,如果单纯的按照订单产生时间增量采集数据,是有问题的,因为用户可能今天下单,明天才支付,但是Hive是不支持数据更新的,这样虽然MySQL中订单的状态改变了,但是Hive中订单的状态还是之前的状态。
1234想要解决这个问题,一般有这么几种方案:第一种:每天全量导入订单表的数据,这种方案在项目启动初期是没有多大问题的,因为
...