TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

大数据开发工程师-第九周 第2章 Scala基础语法

发表于 2022-02-28 | 分类于 大数据开发工程师 , 大数据
字数统计: 6.5k | 阅读时长 ≈ 28
第九周 第2章 Scala基础语法Scala的基本使用变量123scala中的变量分为两种:可变var和不可变val可变var:可以随时修改var声明的变量的值不可变val:val声明的变量,值不能被修改,否则会报错: error: reassignment to val 123456789scala> var a = 1a: Int = 1scala> a = 2a: Int = 2scala> val b = 1b: Int = 1scala> b = 2<console> ...
阅读全文 »

大数据开发工程师-第九周 第1章 Scala极速入门

发表于 2022-02-28 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.1k | 阅读时长 ≈ 3
第九周 第1章 Scala极速入门为什么要学习Scala语言1234567首先我们来分析一下为什么要学习Scala语言最直接的一点就是因为我们后面要学的Spark框架需要用到Scala这门语言但是Spark其实是同时支持Scala语言和Java语言的,为什么非要学Scala呢,使用java它难道不香吗?这就要说第二点了:看下面的代码,使用Spark统计文件内单词出现的次数这个需求,使用java代码和scala代码的区别是有多么的明显,在代码量上来说,scala是完胜java的,所以在实际工作中开发spark代码,我们都是需要使用scala的,使用java实现函数式编程太别扭了,代码量 ...
阅读全文 »

maven相关

发表于 2022-02-21 | 分类于 maven
字数统计: 58 | 阅读时长 ≈ 1
maven相关命令1234567891.打jar包在项目根目录下mvn clean package -DskipTests2.为项目下载pom上配置的依赖在项目根目录下(用cmd或IDEA)mvn clean compile下载后,在项目上右键->maven->reload project 12
阅读全文 »

mysql安装

发表于 2022-02-20
字数统计: 230 | 阅读时长 ≈ 1
mysql安装url1 url2 123456789101.安装包是目免安装型的2.在系统环境变量里添加mysql的路径到xxx\bin(也可以用管理员权限打开的cmd,切到这个路径下,再执行命令)3.用管理员权限打开cmd,输入mysqld --initialize --console (注意一定要看之前是否安装过mysql,在环境变量里,一眼就可以看出,不然总是报各种错误; 加上console可以看到初始化后为root创建的临时密码)4.mysqld -install 将mysql服务安装到win服务5.net start mysql (启动服务)6.mysql -uroot -p ...
阅读全文 »

大数据开发工程师-第八周 第6章 Hive技巧与核心复盘

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 19.3k | 阅读时长 ≈ 87
第6章-Hive技巧与核心复盘一个SQL语句分析123456789101112SELECT a.Key, SUM(a.Cnt) AS CntFROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Hash(Random()) % 50 ELSE 0 END) aGROUP BY a.Key; 12解释:这个SQL其实是一个解决数据倾斜的SQL先看里面的select语句,里面的select语句其实是根据key进行分组 ...
阅读全文 »

大数据开发工程师-第八周 第5章 Hive高级函数实战

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 3.1k | 阅读时长 ≈ 13
第八周 第5章 Hive高级函数实战函数的基本操作12和mysql一样的,hive也是一个主要做统计的工具,所以为了满足各种各样的统计需要,他也内置了相当多的函数,我们可以通过 show functions; 来查看hive中的内置函数hive (default)> show functions; 123查看指定函数的描述信息我们可以使用: desc function functionName;hive (default)> desc function year; 12显示函数的扩展内容hive (default)> desc function extended y ...
阅读全文 »

大数据开发工程师-第八周 第4章 Hive核心实战2

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.4k | 阅读时长 ≈ 10
第八周 第4章 Hive核心实战 Hive中的数据类型123456hive作为一个类似数据库的框架,也有自己的数据类型,便于存储、统计、分析。Hive中主要包含两大数据类型 一类是基本数据类型 一类是复合数据类型基本数据类型:常用的有INT,STRING,BOOLEAN,DOUBLE等复合数据类型:常用的有ARRAY,MAP,STRUCT等 基本数据类型1234看这个表,一般数字类型我们可以试验int,小数可以使用double,日期可以使用date类型、还有就是boolean类型,这些算是比较常见的了,前面我们在建表的时候基本都用过了。这些基本数据类型倒没有什么特殊之处 ...
阅读全文 »

大数据开发工程师-第八周 第4章 Hive核心实战

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.8k | 阅读时长 ≈ 12
第八周 第4章 Hive核心实战 Hive中数据库的操作12345show databases;use default;create database xxx;drop database xxxx; 注意:default默认数据库无法删除! 123default是默认数据库,默认就在这个库里面咱们前面说过hive的数据都是存储在hdfs上,那这里的default数据库在HDFS上是如何体现的?在 hive-site.xml中有一个参数 hive.metastore.warehouse.dir 12它的默认值是 /user/hive/wa ...
阅读全文 »

大数据开发工程师-第八周 第4章 Hive核心实战2

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 7k | 阅读时长 ≈ 27
第八周 第4章 Hive核心实战 Hive中的表类型123在Mysql中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表下面来一个一个学习一下这些类型的表 内部表12345678910首先看内部表内部表也可以称为受控表它是Hive中的默认表类型,表数据默认存储在warehouse目录中在加载数据的过程中,实际数据会被移动到warehouse目录中,就是咱们前面在使用load加载数据的时候,数据就会被加载到warehouse中表对应的目录中当我们删除表时,表中的数据和元数据将会被同时删除实际上,我们前 ...
阅读全文 »

大数据开发工程师-第八周 第3章 Hive基础使用

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 3k | 阅读时长 ≈ 12
第八周 第3章 Hive基础使用Hive的使用方式12操作Hive可以在Shell命令行下操作,或者是使用JDBC代码的方式操作下面先来看一下在命令行中操作的方式 命令行方式12345678针对命令行这种方式,其实还有两种使用第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式后来又出现一个beeline命令,它是通过HiveServer2服务连接hive,它是一个轻量级的客户端工具,所以后来官方开始推荐使用这个。具体使用哪个我觉得属于个人的一个习惯问题,特别是一些做了很多年大数据开发的人,已经习惯了使用hive命令,如果让我使用beeline会感觉有点别扭针 ...
阅读全文 »
上一页1…111213…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%