Operations

運用設計

障害を想定した設計(Resilient by Design)。自動復旧 > 手動復旧。 サーバーレスの力で運用工数80%削減。

障害を想定した設計

自動復旧 > 手動復旧

対応が必要なアラートだけ

運用工数80%削減

SLA目標

99.9%

システム稼働率

Cloudflare Analytics

200ms以下

API応答時間(P95)

Sentry Performance

99.99%

ファイルアップロード成功率

エラーログ

1時間以内

障害復旧時間(MTTR)

インシデントログ

監視スタック

Sentry

エラー/パフォーマンス

  • Unhandled Errors → Slack即時通知
  • P95レイテンシ > 1秒 → アラート
  • リリース別エラー率追跡

Cloudflare Analytics

インフラ

  • リクエスト数/帯域/エラー率
  • Workers CPU時間
  • R2 ストレージ使用量

Firebase Console

認証

  • アクティブユーザー数
  • 認証失敗率

アラート設計

通知先と対応SLA

重大度通知先対応SLA
P1(緊急)Slack + 電話15分以内
P2(高)Slack1時間以内
P3(中)Slack当日中
P4(低)日次レポート次スプリント

アラート条件

条件重大度
エラー率 > 5%P1
P95 > 3秒(5分継続)P2
Firebase Auth障害P1
R2アップロード失敗P2
工場SFTP接続失敗P2

自動復旧機構

リトライポリシー

外部API呼び出し

  • 最大3回
  • 指数バックオフ: 1s → 2s → 4s
  • Circuit Breaker: 5回連続失敗で30秒遮断

キュー処理

  • 最大5回
  • 固定間隔: 60秒
  • Dead Letter Queue: 5回失敗後にDLQ移送

工場SFTP配信

  • 最大10回
  • 指数バックオフ: 1min → 5min → 30min
  • 失敗時: 管理者通知 + 手動対応フラグ

Circuit Breaker パターン

Closed
Open
Half-Open

Closed → Open

5回連続失敗で遮断

Open → Half-Open

30秒後に回復確認

Half-Open → Closed

成功で復旧

定期メンテナンス

週次

自動
  • 依存パッケージ脆弱性スキャン (Dependabot)
  • Sentryアラートレビュー

月次

手動・30分
  • Cloudflareコスト確認
  • Firebase Auth利用状況確認
  • セキュリティレポートレビュー

四半期

手動・2時間
  • 暗号鍵ローテーション (KMS)
  • アクセス権限棚卸し
  • 障害訓練 (Chaos Engineering)

バックアップ・リストア

対象方法保持期間RTO
Firestore自動バックアップ7日1時間
D1日次スナップショット30日30分
R2(画像)なし(設計上)--

R2にバックアップがない理由:原本画像は180日後に自動削除(R2 Lifecycle)。元画像はユーザーのデバイスに存在。注文完了後の再アップロードで対応可能。

サーバーレスの運用優位性

項目従来サーバーサーバーレス
OS/ミドルウェアパッチ月次作業不要(自動)
スケーリング手動設定自動
深夜/休日対応オンコール自動復旧
インフラ監視24/7不要
ディスク容量管理監視必要不要
SSL証明書更新手動自動

結果: 運用工数 80%削減

自動スケーリング

Cloudflare Workers

  • • 同時接続: 無制限(エッジ分散)
  • • リクエスト/日: 1000万まで無料
  • • スケーリング: 自動・無設定

Cloudflare R2

  • • 容量: 無制限
  • • リクエスト: 無制限
  • • スケーリング: 自動・無設定

Cloud Run(工場配信)

  • • 最小インスタンス: 0
  • • 最大インスタンス: 10
  • • スケーリング: リクエスト数に応じて

設定不要で月間100万件まで対応可能

コスト監視

項目アラート閾値
Cloudflare Workers1000万リクエスト/日超過
R2ストレージ100GB超過
Cloud Run¥5,000/月超過
Firebase Auth10万MAU超過

運用設計の特長

  • SLA 99.9%保証(Cloudflareインフラ)
  • 自動復旧でMTTR 1時間以内
  • サーバーレスで運用工数80%削減
  • 月次手動作業30分のみ
  • 自動スケーリングで月間100万件対応
  • 透明なコスト監視