0%

在HBase中,我们存储的数据是时序数据。时序数据的特点是,只关心实时数据,历史数据一般不关心。因此,我们在设计RowKey时,充分根据时间特性来进行设置:bucket_time_xxx。

yarn的核心思想是将集群资源进行管理。例如:任务的调度与监控。为达到该目的,yarn提供了两个组件:ResourceManager 和 NodeManager。其中,ResourceManager用来管理集群资源,NodeManager是每台机器的框架代理

当我们分析了问题,并改进了新的rowkey结构,那么我们为了做到无缝对接,需要将历史数据进行迁移。迁移历史数据的思路大体为:1. 读取原数据 2. 按新结构生成RowKey 3. 写入新表

当前我们的数据是时间序列数据。由OpenTsdb写入。OpenTsdb在HBase中设计的RowKey格式:metric_time_tagk1_tagv1…tagkn_tagvn这种时间序列的数据,存在一个很严重的问题:数据热点。

对读写缓存进行了分离,使用了堆外内存,读缓存不再往内存中写。整体gc有了一定的提升,但还是会有整点尖峰情况。查看HBase的读写请求,基本趋于稳定,所以整点的尖峰,猜测和调整HBase参数基本无关。

HubSpot engineering is a invested heavily in microservices and continuous deployment. Java is not only used to run our thousands of deployables, but also our queues