大数据架构之道

HBase调优之二：优化压缩队列过高问题

发表于 2022-03-28 分类于 HBase调优

HBase 压缩队列告警优化线上告警现象线上告警阈值大小是20，而平时的压缩队列大小能达到：50~100。压缩队列大小怎么算那么，这个压缩队列大小，是如何统计的呢？

发表于 2022-03-28 分类于 HBase调优

HBase是一个数据库，它具有关系型数据库所具有的：表、行、列。从逻辑视图来看，它是以关系型数据库中的“表”形式组织的。从物理视图看，它是一个Map，由键值构成。

发表于 2022-03-01 更新于 2022-03-04 分类于实时数据调优

数据是工业时序数据。采集方式是，每个商户每个设备下采集的每个点。这些数据点需要实时查询，也需要历史查询。查询包括云端查询和边缘端查询。实时查询，保存在Redis，历史数据查询，保存在HBase。两者查询互不影响。

发表于 2021-09-14 更新于 2022-11-14 分类于架构之道

最近对公司内部项目做了一些重构，对项目架构这一块也有了一定的理解，结合在企业内部的实际项目，来记录一下个人在架构这块学到的一些经验和知识。

发表于 2021-07-23 更新于 2022-08-12 分类于架构之道

在网站创立初期，我们一般都使用单台机器对台提供集中式服务，但是随着业务量越来越大，无论是性能上还是稳定性上都有了更大的挑战。

发表于 2021-01-08 更新于 2022-07-11 分类于 Spark

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

发表于 2021-01-08 更新于 2022-06-08 分类于 Spark

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。

发表于 2021-01-08 更新于 2022-07-11 分类于 Spark

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作

发表于 2021-01-08 更新于 2022-07-11 分类于 Spark

这是一个重点知识，如果你已经有了一定的基础知识，请务必细看本节。这将对你排查问题以及追踪代码执行进度时，起到很大的作用。

发表于 2021-01-08 更新于 2022-07-11 分类于 Spark

dirver是spark应用程序的起点，它是spark应用程序的执行控制器，同时也维护者spark集群中所有的状态（执行节点的状态和任务的进度）。