spark 数据倾斜的一些表现

  • 时间:
  • 浏览:0
  • 来源:大发11选5_大发11选5官网

打开webui(:4040/jobs),打开executor列表,会显示必须一另一一三个白多多worker在工作,

能必须看后,肯能是webui的显示现象图片,shuffle read只显示80M+的数据量,实际内存使用肯能超6G了,开使的过后没想到是你你这些现象图片。木艮同学指出日志出错是在shuffle阶段,应该是数据倾斜现象图片,Jepson同学说数据实际占有内存比数据大小大过多过多,于是我共要知道了肯能出错的地方,排查了一下你你这些stage对应的DAG里带shuffle的transformation操作,才发现了bug。

我自己的bug必须好多个参考价值,肯能是一另一一三个白多多弱智bug,因此肯能过后必须这方面的经验,看后日志但是懂指在了哪好多个,在群里请教了木艮同学和Jepson同学, 终于找到了现象图片。稍微写一架构设计 生数据倾斜时的许多日志和监控图表吧,权当参考。

我遇到的现象图片我我觉得是自己的业务代码的bug意味着着shuffle时指在了倾斜,groupby操作时少许的key映射到了同一台机器。

我的现象图片是比较弱智的bug,加了许多数据源,新写了正确处理代码;因此新的任务改了,过后的任务代码忘记改了,意味着着新的数据必须设置key,完整group到一另一一三个白多多地方去了。