记一次 TimescaleDB 性能优化
迪丽瓦拉
2025-05-30 21:45:03
0

背景

项目中使用TimescaleDB来存储时序数据,最近发现查询很慢,且对服务器资源消耗较大。通过查看官方文档,慢日志等方式,找到了一些可以优化的地方,包括索引优化、SQL优化、调整分区大小、删除过时的块、压缩这几个方面。

索引优化

优化依据

索引的一个好的经验法则是分层思考。首先选择通常希望在其上运行相等操作符的列,例如location = garage。然后选择要在其上使用范围操作符的列,例如time> 0930。(摘抄自官方文档索引章节)

存在问题

项目中大量查询使用db_id和time列进行过滤,但只有time列上有索引。这样的话会导致先按time列进行索引,然后扫描数据行来根据db_id过滤,从下面这个慢SQL的执行计划也可以看出:

postgres=# explain select * from db_monitor where db_id=1574 AND time > now() - INTERVAL '20 mins' order by time desc limit 1 ;QUERY PLAN
------------------------------------------------------------------------------------------------------------------------------------------------Limit  (cost=0.15..0.61 rows=1 width=760)->  Custom Scan (ChunkAppend) on db_monitor  (cost=0.15..4.75 rows=10 width=760)Order: db_monitor.time DESCChunks excluded during startup: 123->  Index Scan using _hyper_6_42420_chunk_db_monitor_time_idx on _hyper_6_42420_chunk  (cost=0.15..4.75 rows=10 width=760)Index Cond: (time > (now() - '00:20:00'::interval))Filter: (db_id = 1574::bigint)
(7 rows)

优化建议

创建db_id和time的联合索引优化此类查询。

SQL优化

优化依据

分区通过快速排除不相关的数据使查询更快。(摘抄自官方文档)

存在问题

项目中部分查询SQL没有根据时间过滤,这样会导致扫描很多的分区,如下:

postgres=# explain select * from db_monitor where db_id=1572 order by time desc limit 1 ;QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------------------------------Limit  (cost=0.14..0.78 rows=1 width=1967)->  Custom Scan (ChunkAppend) on db_monitor  (cost=0.14..31.38 rows=49 width=1967)Order: db_monitor.time DESC->  Index Scan using _hyper_6_42420_chunk_db_monitor_time_idx on _hyper_6_42420_chunk  (cost=0.14..31.38 rows=49 width=1409)Filter: (db_id = 1572::bigint)->  Index Scan using _hyper_6_42404_chunk_db_monitor_time_idx on _hyper_6_42404_chunk  (cost=0.15..54.96 rows=91 width=1399)Filter: (db_id = 1572::bigint)......->  Index Scan using _hyper_6_37989_chunk_db_monitor_time_idx on _hyper_6_37989_chunk  (cost=0.28..98.45 rows=88 width=2207)Filter: (db_id = 1572::bigint)->  Index Scan using _hyper_6_37949_chunk_db_monitor_time_idx on _hyper_6_37949_chunk  (cost=0.28..98.38 rows=91 width=2243)Filter: (db_id = 1572::bigint)
(263 rows)

优化建议

查询SQL中增加时间的过滤条件,让其扫描尽可能少的分区。

调整分区大小

优化依据

建议25%的内存大小能够存储每个活跃超表中的一个块及块上的索引。但也不能有太多的块,这可能会影响查询计划时间和压缩。(摘抄自官方文档中时间分区的最佳实践)

优化建议

服务器内存16GB,16G的25%就是4G。查了一下现有的数据,一天的数据量大概是280MB,7天的数据量就是1.914GB,没有超过4G,所以分区大小改成7天。

删除过时的块

优化依据

TimescaleDB数据保留工作在块上,而不是行上。逐行删除数据,例如使用PostgreSQL DELETE命令,可能会很慢。但是按块删除数据更快,因为它会从磁盘上删除整个文件,它不需要垃圾收集和碎片整理。(摘抄自官方文档数据保留章节)

优化建议

在TimescaleDB中设置数据保留策略,也可以在定时任务中调用drop_chunks函数。

压缩

优化依据

随着数据的老化,查询可能会发生变化。它们变得更具分析性,涉及的列更少。在旧数据上运行的查询可能是“计算上个月的平均磁盘使用量”,此类查询在压缩的柱状数据上运行得更快。(摘抄自官方文档压缩章节)

优化建议

需求可以往这方面考虑,旧数据的查询由明细查询改为统计查询。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...