zookeeper的安装相对比较简单,不需要配置大量的参数。 但是zookeeper要求Java运行环境,并且需要jdk版本1.6以上,安装jdk可以参考文末链接。 简单介绍下zooKeeper,它是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop(HA、联邦)和Hbase的重要组件。 它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等,可用于注册中心。 ZooKeeper的目标就是封装好复杂易出错的关键服务,…

2020年06月07日 0条评论 471点热度 1人点赞 阅读全文

HBase,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库) 由此来看,hbase的使用就需要hadoop、zookeeper,两者的安装可以参考文末链接! http://mirror.bit.edu.cn/apache/hbase/ Master 192.168.71.10 S…

2020年06月07日 0条评论 545点热度 0人点赞 阅读全文

  Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执行模型(streaming execution model),能够支持流处理和批处理两种应用类型。 由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同,流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理, 所以在实现的时候通常是分别给出两套实现方法,或者通过一个独立的开源框架来实现其中每一种处理方案。 比较典型的有:实现批处理的开源方案有MapReduc…

2020年06月07日 0条评论 721点热度 0人点赞 阅读全文

spark包含了很多的部分:spark-core、spark-streaming、sprak-sql、spark-Mlib、spark-graphx等等。 spark可以单独安装作为计算框架,也可以和hadoop的yarn、hdfs一起使用。一般在企业中是配合yarn与hdfs一起使用,所以本文也是以此为基础安装。 安装spark之前需要安装scala,参考文末链接! 同样也需要hadoop集群 本文档适合spark 1.x版本 与 spark 2.x版本的安装,安装时,注意与自己本地路径一致! 0. Spark源…

2020年06月07日 0条评论 753点热度 1人点赞 阅读全文

hive的安装模式分为两种: 1、derby作为元数据库:derby主要是作为单机模式或者说测试使用,一般不会使用derby数据库 2、mysql作为元数据库:推荐使用mysql作为元数据库 hive仅仅是一个客户端工具,不存在集群的概念,所以无需每台节点都安装,哪个节点使用在哪个节安装即可,注意要使用同一个mysql同一个数据库。 hive的使用是依赖于hadoop的hdfs作为存储系统,以及mapreduce作为计算框架,所以在安装hive之前必须安装hadoop集群,并且启动hadoop。 http://mi…

2020年06月07日 0条评论 747点热度 1人点赞 阅读全文
13456710