Flume是一个分布式、可靠、和高可用的海量日志采集、日志聚和  和 传输 的系统。 支持在日志系统中定制各类数据发送方,用于收集数据。 同时,Flume提供对数据进行简单处理,并具有写到各种数据接收方(HDFS、Hbase等)的功能。 其核心为Agent,是flume中最小的独立运行单位(JVM)。 核心组件为:source、channel、sink http://mirror.bit.edu.cn/apache/flume/ Master 192.168.71.10 Slave1 192.168.71.11 S…

2020年06月15日 0条评论 115点热度 0人点赞 阅读全文

Kafka是使用scala编写的运行与jvm虚拟机上的程序,虽然也可以在windows上使用,但是kafka基本上是运行在linux服务器上,因此我们这里也使用centos7来实战。 首先确保你的机器上安装了jdk,kafka需要java运行环境,以前的kafka还需要zookeeper,新版的kafka已经内置了一个zookeeper环境,所以我们可以直接使用,但还是建议使用自己安装的zookeeper ApacheKafka是一个分布式流媒体平台,它主要有3种功能 1、发布和订阅消息流,这个功能类似于消息队列,…

2020年06月08日 0条评论 129点热度 0人点赞 阅读全文

zookeeper的安装相对比较简单,不需要配置大量的参数。 但是zookeeper要求Java运行环境,并且需要jdk版本1.6以上,安装jdk可以参考文末链接。 简单介绍下zooKeeper,它是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop(HA、联邦)和Hbase的重要组件。 它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等,可用于注册中心。 ZooKeeper的目标就是封装好复杂易出错的关键服务,…

2020年06月07日 0条评论 125点热度 1人点赞 阅读全文

hive的安装模式分为两种: 1、derby作为元数据库:derby主要是作为单机模式或者说测试使用,一般不会使用derby数据库 2、mysql作为元数据库:推荐使用mysql作为元数据库 hive仅仅是一个客户端工具,不存在集群的概念,所以无需每台节点都安装,哪个节点使用在哪个节安装即可,注意要使用同一个mysql同一个数据库。 hive的使用是依赖于hadoop的hdfs作为存储系统,以及mapreduce作为计算框架,所以在安装hive之前必须安装hadoop集群,并且启动hadoop。 http://mi…

2020年06月07日 0条评论 210点热度 1人点赞 阅读全文

hive的安装模式分为两种: 1、derby作为元数据库:derby主要是作为单机模式或者说测试使用,一般不会使用derby数据库 2、mysql作为元数据库:推荐使用mysql作为元数据库 hive仅仅是一个客户端工具,不存在集群的概念,所以无需每台节点都安装,哪个节点使用在哪个节点安装即可,注意要使用同一个mysql同一个数据库。 hive的使用是依赖于hadoop的hdfs作为存储系统,以及mapreduce作为计算框架,所以在安装hive之前必须安装hadoop集群,并且启动hadoop。 http://m…

2020年06月07日 0条评论 191点热度 1人点赞 阅读全文
12