数据倾斜 为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜; 而是指 shuffle 过程中产生的数据倾斜 最近一直有各种各样的事,所以原定上周四发的kafka源码的文章就搁浅了,眼看今天又是周四了,不能鸽了,毕竟年轻人要讲武德... ... 在2k多篇笔记里面翻吧翻吧找了这篇文章:spark中数据倾斜的优化和解决方案,先发一下凑合看,文章比较长,但也算是有用的点 也在这里提醒下大家,注意锻炼身体,毕竟身体才是革命的本钱 提示一下: …

2020年11月20日 0条评论 25点热度 0人点赞 阅读全文

spark包含了很多的部分:spark-core、spark-streaming、sprak-sql、spark-Mlib、spark-graphx等等。 spark可以单独安装作为计算框架,也可以和hadoop的yarn、hdfs一起使用。一般在企业中是配合yarn与hdfs一起使用,所以本文也是以此为基础安装。 安装spark之前需要安装scala,参考文末链接! 同样也需要hadoop集群 本文档适合spark 1.x版本 与 spark 2.x版本的安装,安装时,注意与自己本地路径一致! 0. Spark源…

2020年06月07日 0条评论 184点热度 0人点赞 阅读全文