HBase调优之二:优化压缩队列过高问题
HBase 压缩队列告警优化 线上告警现象 线上告警阈值大小是20,而平时的压缩队列大小能达到:50~100。压缩队列大小怎么算 那么,这个压缩队列大小,是如何统计的呢?
HBase 压缩队列告警优化 线上告警现象 线上告警阈值大小是20,而平时的压缩队列大小能达到:50~100。压缩队列大小怎么算 那么,这个压缩队列大小,是如何统计的呢?
HBase是一个数据库,它具有关系型数据库所具有的:表、行、列。从逻辑视图来看,它是以关系型数据库中的“表”形式组织的。从物理视图看,它是一个Map,由键值构成。
数据是工业时序数据。采集方式是,每个商户每个设备下采集的每个点。这些数据点需要实时查询,也需要历史查询。查询包括云端查询和边缘端查询。实时查询,保存在Redis,历史数据查询,保存在HBase。两者查询互不影响。
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作
这是一个重点知识,如果你已经有了一定的基础知识,请务必细看本节。这将对你排查问题以及追踪代码执行进度时,起到很大的作用。
dirver是spark应用程序的起点,它是spark应用程序的执行控制器,同时也维护者spark集群中所有的状态(执行节点的状态和任务的进度)。