数据倾斜 为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜; 而是指 shuffle 过程中产生的数据倾斜 最近一直有各种各样的事,所以原定上周四发的kafka源码的文章就搁浅了,眼看今天又是周四了,不能鸽了,毕竟年轻人要讲武德... ... 在2k多篇笔记里面翻吧翻吧找了这篇文章:spark中数据倾斜的优化和解决方案,先发一下凑合看,文章比较长,但也算是有用的点 也在这里提醒下大家,注意锻炼身体,毕竟身体才是革命的本钱 提示一下: …

2020年11月20日 0条评论 26点热度 0人点赞 阅读全文

在大数据公司中,任何一家公司都不会只使用一个框架吧?! skr,skr~~ 那我们今天就来聊一段 Hive 与 Spark的爱恨情仇 就像 在一些场景中,需要将外部的数据导入到Hive表中,然后再对这些数据进行额外的处理,提供给不同的部门使用。 当导完数据之后,需要用到Spark进行后续的处理时,发现数据多了一条 Spark:Omg,我顶你个肺~ 这种情况的排查,我们需要从数据源头一步步检验,找出来这突然多出来的数据究竟是何方妖怪,想想是一件很恐怖的事情 Hive:同志,冷静 数据重复?索引重复? 俗话说不会面向度…

2020年11月12日 0条评论 31点热度 0人点赞 阅读全文

在anaconda发展越来越来的情况下,大多数人将anaconda作为常用管理python第三方库的软件。 一些基础使用命令也是我们需要学习的。 conda常用的命令。 1、conda list 查看安装了哪些包。 2、conda env list 或 conda info -e 查看当前存在哪些虚拟环境 3、conda update conda 检查更新当前conda 创建python虚拟环境 conda create -n your_env_name python=X.X(2.7、3.6等) anaconda …

2020年09月21日 0条评论 191点热度 0人点赞 阅读全文

使用beeline方式连接hive-server2的过程中,报以下错误: [ 08S01] Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000: java.net.SocketException: Connection reset 查询官网资料得知,出现jdbc:hive2://localhost:10000: java.net.SocketException: Connection reset错误的原因,大概率是因…

2020年09月11日 0条评论 148点热度 1人点赞 阅读全文

整了个idea的leetcode插件,方便刷题,记录下刷的第一题! 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标 三种方法中最后一个是最开始想出来的,后来修改nums之后发现不能返回,就有了1和2两种方法! 题目中有说明:假设每种输入只会 对应一个答案。 有想法的朋友可以自己实现一下。 # 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 # # 你可以假设每种输…

2020年08月20日 0条评论 145点热度 1人点赞 阅读全文
1234510