TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

cmd命令积累

发表于 2022-03-19 | 分类于 cmd
字数统计: 41 | 阅读时长 ≈ 1
cmd命令积累创建文件夹1md(mkdir) filename 创建文件1type nul > file 写内容到文件1echo 'xxx' 查看运行进程,杀掉进程123tasklisttaskkill /pid 7
阅读全文 »

大数据开发工程师-第十周 第6章 TOP N主播统计

发表于 2022-03-02 | 分类于 大数据开发工程师 , 大数据
字数统计: 5.8k | 阅读时长 ≈ 31
第十周 第6章 TOP N主播统计实战:TopN主播统计1234567需求:计算每个大区当天金币收入TopN的主播背景是这样的,我们有一款直播APP,已经在很多国家上线并运营了一段时间,产品经理希望开发一个功能,topN主播排行榜,按天更新排名信息,统计的维度有多种,其中有一个维度是针对主播当天直播的金币收入进行排名。在我们的直播平台中有大区这个概念,一个大区下面包含多个国家,不同大区的运营策略是不一样的,所以就把不同国家划分到不同大区里面,方便运营。那这个TopN主播排行榜在统计的时候就需要分大区统计了。针对主播每天的开播数据我们已经有了,以及直播间内用户的送礼记录也都是有的。那这 ...
阅读全文 »

大数据开发工程师-第十周 第5章 RDD持久化

发表于 2022-03-02 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.9k | 阅读时长 ≈ 11
第十周 第5章 RDD持久化RDD持久化原理12345Spark中有一个非常重要的功能就是可以对RDD进行持久化。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition数据持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存中缓存的partition数据。这样的话,针对一个RDD反复执行多个操作的场景,就只需要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。因为正常情况下这个RDD的数据使用过后内存中是不会一直保存的。例如这样的操作:针对mapRDD需要多次使用的 12345val dataRDD = sc.pa ...
阅读全文 »

大数据开发工程师-第十周-第4章-transformation与action实战

发表于 2022-03-02 | 分类于 大数据开发工程师 , 大数据
字数统计: 6.7k | 阅读时长 ≈ 33
第十周 第4章 transformation与action实战创建RDD12345678RDD是Spark编程的核心,在进行Spark编程时,首要任务是创建一个初始的RDD这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后,才可以通过Spark 提供的一些高阶函数,对这个RDD进行操作,来获取其它的RDDSpark提供三种创建RDD方式:集合、本地文件、HDFS文件 使用程序中的集合创建RDD,主要用于进行测试,可以在实际部署到集群运行之前,自己使用集合构造一些测试数据,来测试后面的spark应用程序的流程。 使用本地文件创建RDD,主要用于临时性地处理 ...
阅读全文 »

大数据开发工程师-第十周 第3章 spark实战: 单词统计

发表于 2022-03-02 | 分类于 大数据开发工程师 , 大数据
字数统计: 3.6k | 阅读时长 ≈ 16
第十周 第3章 spark实战: 单词统计WordCount程序1234首先看来一个快速入门案例,单词计数这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的:读取文件中的所有内容,计算每个单词出现的次数这个需求就没什么好分析的了,咱们之前在学习MapReduce的已经分析过了,接下来就来看一下使用Spark需要如何实现 1注意:由于Spark支持Java、Scala这些语言,目前在企业中大部分公司都是使用Scala语言进行开发,个别公司会使用java进行开发,为了加深大家对Spark的理解,也满足java老程序员的需求,针对本课程中的案例,我们都会先基于Scala代 ...
阅读全文 »

大数据开发工程师-第十周 第2章 解读spark工作与架构原理

发表于 2022-03-02 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.5k | 阅读时长 ≈ 5
第十周 第2章 解读spark工作与架构原理Spark的工作原理12下面我们来分析一下Spark的工作原理来看这个图 1234567 首先看中间是一个Spark集群,可以理解为是Spark的stand alone集群,集群中有6个节点 左边是Spark的客户端节点,这个节点主要负责向Spark集群提交任务,假设在这里我们向Spark集群提交了一个任务 那这个Spark任务肯定会有一个数据源,数据源在这我们使用HDFS,就是让Spark计算HDFS中的数据。 当Spark任务把HDFS中的数据读取出来之后,它会把HDFS中的数据转化为RDD,RDD其实是一个弹性分布式数据集,它 ...
阅读全文 »

大数据开发工程师-第十周 第1章 初识spark

发表于 2022-03-02 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.6k | 阅读时长 ≈ 9
第十周 第1章 初识spark快速了解Spark什么是Spark1234567Spark是一个用于大规模数据处理的统一计算引擎注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎既然说到了Spark,那就不得不提一下Spark里面最重要的一个特性:内存计算Spark中一个最重要的特性就是基于内存进行计算,从而让它的计算速度可以达到MapReduce的几十倍甚至上百倍所以说在这大家要知道,Spark是一个基于内存的计算引擎 Spark的特点Speed:速度快1234由于Sp ...
阅读全文 »

大数据开发工程师-第九周 第4章 Scala函数式编程

发表于 2022-03-01 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.6k | 阅读时长 ≈ 6
第九周 第4章 Scala函数式编程123下面我们来学习一下scala中最重要的内容,函数式编程,其实我们学习Scala这门语言就是因为它的这一个特性,咱们在最开始的时候给大家演示了,使用java代码实现函数式编程是很复杂的,而使用scala代码实现函数式编程就很轻松,很简单了。这块内容我们在后续工作中会经常使用,需要大家重点掌握。 什么是函数式编程1234Scala是一门既面向对象,又面向过程的语言。因此在Scala中有非常好的面向对象的特性,可以使用Scala来基于面向对象的思想开发大型复杂的系统和工程;而且Scala也面向过程,因此Scala中有函数的概念。在Scala中,函 ...
阅读全文 »

大数据开发工程师-第九周 第5章 Scala高级特性

发表于 2022-03-01 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.5k | 阅读时长 ≈ 6
第九周 第5章 Scala高级特性模式匹配1234567先看一下模式匹配模式匹配是Scala中非常有特色,非常强大的一种功能。模式匹配,其实类似于Java中的 switch case 语法,即对一个值进行条件判断,然后针对不同的条件,进行不同的处理不过Scala没有Java中的 switch case 语法,但是,Scala提供了更加强大的 match case 语法,就是这个模式匹配Java的 switch case 仅能匹配变量的值,而Scala的 match case 可以匹配各种情况,比如:变量的类型、集合的元素,有值没值 对变量的值进行模式匹配12match case语法 ...
阅读全文 »

大数据开发工程师-第九周 第3章 Scala面向对象

发表于 2022-03-01 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.5k | 阅读时长 ≈ 10
第九周 第3章 Scala面向对象Scala面向对象编程1234567Scala也是一门面向对象的编程语言,下面我们就来学习一下Scala的面向对象编程在这里我们主要学习Scala中的类、对象和接口注意:Scala中类和java中的类基本是类似的Scala中的对象时需要定义的,而java中的对象是通过class new出来的Scala中的接口是trait,java中的接口是interface 类-class123456首先看一下类Scala中定义类和Java一样,都是使用class关键字和Java一样,使用new关键字创建对象那下面来看一个具体案例定义Person类,创建对象并调用 ...
阅读全文 »
上一页1…101112…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%