Sqoop
Sqoop简介
Sqoop是一个在关系型数据库与Hadoop数据存储和处理平台进行数据导入\导出的工具
Sqoop脚本最终会转换为mapreduce程序
Sqoop基本原理
有sqoop1和sqoop2;sqoop1更加稳定
Sqoop1使用Sqoop客户端直接提交任务,通过CLI控制台或API方式访问数据时,在命令或脚本中需要指定用户数据库名及密码
import原理:从传统数据库获取元数据信息,把导入功能转换为只有Map的MapReduce作业,在map中有很多Map,每个Map读取一片数据,进而并行地复制到HDFS,HBSE或HIVE中的数据导入到关系型数据库
Export原理:获取导出表的schema,meta信息,与hadoop中的字段匹配,多个Map作业并行运行,将HDFS,HBASE或HIVE中的数据导出到关系型数据库
