広告です。クリックいただけると励みになります。

人気記事(昨日)

    2025年05月11日

    SREとは

    luthfi-alfarizi-tOlgkdeKH4M-unsplash.jpg

    質問

    SREとはなんですか


    解答

    SRE(Site Reliability Engineering、サイト・リライアビリティ・エンジニアリング)とは、大規模なシステムやサービスを安定して運用し続けるための手法や役割のことです。
    もともとはGoogleが提唱した概念で、ソフトウェアエンジニアリングのアプローチを運用業務に取り入れるのが特徴です。

    SREの主な特徴:

    信頼性の重視(Reliability First)

    * システムの稼働率(例:99.9%など)や障害の早期検知、復旧など、信頼性を最優先します。


    ソフトウェアによる運用自動化

    * 手作業による運用ではなく、コードによって自動化(例:デプロイ、自動修復、監視など)を行います。


    エラーバジェット(Error Budget)

    * サービスの許容可能なダウンタイムの上限(たとえば0.1%)を定め、それを超えると新機能のリリースが制限されます。


    可観測性(Observability)

    * ログ・メトリクス・トレースを活用してシステムの状態を正確に監視し、問題を特定・解決します。


    ポストモーテム文化

    * 障害が発生した際には原因を追求し、責任追及ではなく再発防止を目的としたレポート(ポストモーテム)を作成します。



    SREの仕事内容の例:

    * サーバやクラウドのインフラ設計・運用
    * 障害対応とインシデント管理 
    モニタリングツールの構築・保守
    * パフォーマンスの最適化
    * CI/CDパイプラインの整備

    開発者と運用担当の架け橋となるSREは、DevOpsの進化系とも言われます。






    システム運用アンチパターン エンジニアがDevOpsで解決する組織・自動化・コミュニケーション [ Jeffery D. Smith ]

    価格:3520円
    (2025/5/8 12:07時点)
    感想(0件)


    温かいテクノロジー [ 林 要 ]

    価格:2090円
    (2023/11/14 22:47時点)
    感想(1件)


     



    ブログランキング・にほんブログ村へ
    【下記、広告です。クリックいただけると励みになります。】
    posted by モニー at 19:00| Comment(0) | インフラ関連 | このブログの読者になる | 更新情報をチェックする
    この記事へのコメント
    コメントを書く
    コチラをクリックしてください