Flume是一个分布式、可靠、和高可用的海量日志采集、日志聚和  和 传输 的系统。 支持在日志系统中定制各类数据发送方,用于收集数据。 同时,Flume提供对数据进行简单处理,并具有写到各种数据接收方(HDFS、Hbase等)的功能。 其核心为Agent,是flume中最小的独立运行单位(JVM)。 核心组件为:source、channel、sink http://mirror.bit.edu.cn/apache/flume/ Master 192.168.71.10 Slave1 192.168.71.11 S…

2020年06月15日 0条评论 66点热度 0人点赞 阅读全文

0.scala包下载 https://www.scala-lang.org/ 1.下载解压 wget https://downloads.lightbend.com/scala/2.11.4/scala-2.11.4.tgz tar -zxvf scala-2.11.4.tgz 2.添加到环境变量 vim ~/.bashrc export SCALA_HOME=/usr/local/src/scala-2.11.4 export PATH=$PATH:$SCALA_HOME/bin 3.刷新环境变量 source …

2020年06月07日 0条评论 54点热度 0人点赞 阅读全文

搭建的hadoop2.7.7集群,在启动之后,通过jps会发现有缺少进程的情况。 有的会是缺少datanode,有的会缺少namenode,还有的会缺少resoucemanager。 在网上有很多种说法,究其根本无非就那么几个原因: 1、多次格式化造成clusterID不一致导致启动失败 2、yarn-site、core-site、hdfs-site、mapred-site四个配置文件没有配置正确 3、firewall(iptables)、selinux没有关闭 4、启动hadoop集群之前没有格式化集群 (注-1…

2020年06月07日 0条评论 278点热度 2人点赞 阅读全文