SRE方法论

方法论

1. 确保长期关注运维研发工作

  • 最多 50% 的运维值班内容,最少 50% 的运维开发内容
  • 控制处理紧急事件的数量,运维人员有充分时间处理故障、恢复服务以及事后进行复盘报告
  • 事前报警,但是事后总结更加重要:复盘故障发生、报警和处理的全过程,挖掘故障发生的根本原因,提供相应的预防或解决方案,对事不对人

2. 产品稳定性和迭代速度之间的矛盾

  • 可靠性目标 SLO
  • 错误预算
  • 利用错误预算,加快产品迭代速度,同时保证服务质量
  • 最终目标不是“零事故”,而是在稳定和迭代之间寻求平衡,开发和运维之间协作创新

3. 监控系统

  • 紧急报警(alert) :业务正常运行受到影响,需要紧急处理
  • 工单(ticket):业务不受影响,可以延期处理
  • 日志(logging):记录应用运行日志,用于调试和事后分析

4. 应急事件处理

  • MTTF(平均失败时间)
  • MTTR(平均恢复时间)
  • 自动恢复系统,而非需要人工干预,可减少恢复时间
  • 运维手册(playbook)

5. 变更管理

  • 渐进式发布机制(几种常见的发布方式
    • 蓝绿发布(AB发布)
      将应用所在集群上的机器从逻辑上分为A/B两组。在新版发布时,首先把A组的机器从负载均衡中摘除,再进行新版本的部署。此时,B组仍然继续提供服务。

      当A组升级完毕后,负载均衡重新接入A组,再把B组从负载列表中摘除,进行新版本的部署。A组重新提供服务。

      特点:
      • 如果出问题,影响面较广,或者说很难控制具体的影响面
      • 发布策略简单
      • 用户无感知,平滑过渡
      • 升级/回滚速度快
        缺点:
      • 需要准备正常业务使用资源的两倍以上服务器,防止升级期间单组无法承载业务突发
      • 短时间内浪费一定资源成本
      • 基础设施无改动,增大升级稳定性
        蓝绿发布在早期物理服务器时代,还是比较昂贵的,由于云计算普及,成本也大大降低
    • 灰度发布
      灰度发布只升级部分服务,即让一部分用户继续用老版本,一部分用户开始用新版本,如果用户对新版本没什么意见,那么逐步扩大范围,把所有用户都迁移到新版本上面来。

      特点:
      • 保证整体系统稳定性,在初始灰度的时候就可以发现、调整问题,影响范围可控
      • 新功能逐步评估性能,稳定性和健康状况,如果出问题影响范围很小,相对用户体验也少
      • 用户无感知,平滑过渡
        缺点:
      • 自动化要求高
        部署过程:
      • 从LB摘掉灰度服务器,升级成功后再加入LB
      • 少量用户流量到新版本
      • 如果灰度服务器测试成功,升级剩余服务器
        灰度发布是通过切换线上并存版本之间的路由权重,逐步从一个版本切换为另一个版本的过程
    • 滚动发布
      滚动发布是指每次只升级一个或多个服务,升级完成后加入生产环境,不断执行这个过程,直到集群中的全部旧版本升级新版本。
      • 红色:正在更新的实例
      • 蓝色:更新完成并加入集群的实例
      • 绿色:正在运行的实例
        特点:
      • 用户无感知,平滑过渡
      • 节约资源
        缺点:
      • 部署时间慢,取决于每阶段更新时间
      • 发布策略较复杂
      • 无法确定OK的环境,不易回滚
        部署过程:
      • 先升级1个副本,主要做部署验证
      • 每次升级副本,自动从LB上摘掉,升级成功后自动加入集群
      • 事先需要有自动更新策略,分为若干次,每次数量/百分比可配置
      • 回滚是发布的逆过程,先从LB摘掉新版本,再升级老版本,这个过程一般时间比较长
      • 自动化要求高
    • 小结
      综上所述,三种方式均可以做到平滑式升级,在升级过程中服务仍然保持服务的连续性,升级对外界是无感知的。那生产上选择哪种部署方法最合适呢?这取决于哪种方法最适合你的业务和技术需求。如果你们运维自动化能力储备不够,肯定是越简单越好,建议蓝绿发布,如果业务对用户依赖很强,建议灰度发布。如果是K8S平台,滚动更新是现成的方案,建议先直接使用
      • 蓝绿发布:两套环境交替升级,旧版本保留一定时间便于回滚
      • 灰度发布:根据比例将老版本升级,例如80%用户访问是老版本,20%用户访问是新版本
      • 滚动发布:按批次停止老版本实例,启动新版本实例
  • 迅速而准确的检测到问题的发生
  • 当出现问题时,安全迅速的回退改动

6. 需求预测和容量规划

业务的容量规划,包括自然增长(随着用户使用量上升,资源使用量也上升),也包括一些非自然增长的因素(如新功能的发布,商业推广,以及其他商业因素在内)

  • 必须有一个准确的自然增长需求预测模型,需求预测的时间应该超过资源获取的时间
  • 规划中必须有准确的非自然增长的需求来源的统计
  • 必须有周期性的压力测试,以便准确的将系统原始资源信息与业务容量对应起来

7. 资源部署

资源部署是变更管理与容量规划的结合产物。

  • 资源部署和配置必须迅速完成
  • 仅在必要的时候执行,因为资源有限且昂贵
  • 保证部署和配置过程执行的正确性,否则资源不可用
  • 部署和配置过程影响较大,会有较大幅度修改,必须执行一系列测试,确保可以正确的提供服务

8. 效率与性能

  • 高效的利用资源,盈利的必要性
  • SRE负责容量的部署和配置,承担有关利用率的讨论和改进
  • 服务的利用率指标依赖于服务的工作方式和对容量的配置与部署
  • 关注服务的容量配置策略,提升资源利用率,可以有效的降低系统成本
    业务总体资源的使用情况的关键驱动因素:
    • 用户需求
    • 可用容量
    • 软件的资源使用效率
      SRE可以通过模型预测用户需求,合理部署和配置可用容量,同时可以改进软件以提升资源的使用效率。通过这三个因素可以大幅度提升服务的效率。
      软件系统一般来说在负载上升的时候,会导致延迟升高。延迟升高其实和容量损失是一样的。当负载达到临界线的时候,一个逐渐变慢的系统最终会停止一切服务。SRE的目标是根据一个预设的延迟目标,部署和维护足够的容量。SRE和研发团队应该共同监控和优化整个系统的性能,这就相当于给服务增加容量和提升效率了。
  • 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!
  • © 2020 ChpiTer
  • Powered by Hexo Theme Ayer

请我喝杯咖啡吧~

支付宝
微信