背景
我司mysql,最早部署在物理机上,做的是1主2从,40核150G*3顶了所有业务两年。
最近云平台做了高可用的集群,新业务全部在云平台上。
随着云平台的慢慢完善,物理机部署方式慢慢显示出他的不足。
- 不再重点维护,只能保持现状
- 无法实时监控慢查询,每次都需要找dba导出
- 不支持高可用
- 后续数据库优化也只会在云平台上进行
我们近期出了多次故障,主要是以下问题导致的
- 不小心写了个大批量的循环查询
- 高频接口写了个小慢查询,没做缓存
- 低频接口写了个大慢查询,管理员多点了几次
- 更新大表字段,导致主从延迟一小时,影响业务(类似于pt-online-shema-change的机制,所以放心的在线对大表进行变更)
- 更新大表字段,主库完成,同步到从库的时候,卡在alter,导致从库数据不更新
物理机模式,监控不全,导致我们排查问题严重依赖于DBA,故着手将数据库迁移到云平台