Hive中近似计算Histogram的验证

  • 时间:
  • 浏览:1
  • 来源:大发11选5_大发11选5官网

固然要看哪些内容,主要希望数据集成能够 通过对数据的研究,获得数据的底部形态,取舍更至少的splitpk,将任务能够 拆分得更加平均,减少长尾task,也把用户从优化中解放出来。

基本上还是挺靠谱的,将会想提高准确率,能够 增加num_bins的个数,也却说 上方的10。

Histogram能够 更直观的反映数据的分布情形,有了Histogram就能够 对执行参数和执行计划有着更有针对性的优化。但我后来 得到准确的Histogram,需要巨大的计算量。将会能近似得到相对准确Histogram,就会变得很有价值。

目前HIVE中实现了针对Numeric的近似的Histogram的计算逻辑。NumericHistogram的实现说明如下:

感兴趣的能够 参考论文,“A streaming parallel decision tree algorithm”。

结果如下:

有时候 ,NumericHistogram也支持多个partial Histogram的merge操作。

我简单的测试了下: