FinTech企業において、インシデントを70%、システムダウン時間を90%削減し、復旧時間を改善することに貢献しました
FinTech企業において、インシデントを70%、システムダウン時間を90%削減し、復旧時間を改善することに貢献しました
インシデント対応の迅速化
インシデントの削減
システムダウン時間の短縮
早期回復
お客様は、毎日何千もの金融取引を処理しており、これらのトランザクションを遅延なく、SLAに従って完了する必要がありました。しかし、従来の監視、ロギング、アラートシステムが原因で、頻繁に発生するインシデント、ダウンタイム、ビジネス損失に直面していました。
システムの可用性と事業継続性を確保するために、レガシーな監視・ログシステムをクラウド・ネイティブな技術での変革を希望しており、また、インシデント発生時に先手を打って迅速に復旧するために、リアルタイムのアラートシステムを必要としていました。
Aokumoは最新の監視・ログ技術を導入し、お客様のSLA、システムの安定性、耐障害性の向上を支援しました。
既存の監視・記録ツールでは、関連するデータポイントをすべて取得することができず、問題の特定やシステムの現状を確立することが困難であった。
監視は第三者機関に委託しており、コストがかかっていた。
レガシーツールが完全な可視性を提供する上で非効率であるため、復旧に時間がかかっていた。
システムおよびインフラに関する全体像の欠如と、信頼性の低いアラート通知の遅延が、ビジネスSLAに影響を与えていた。
多次元データを取得し、リアルタイムに可視化するPrometheusを導入することで、効果的なモニタリングが可能となった。
AWSが管理するOpenSearchを使用してELKスタックを実装し、リアルタイムモニタリングによるインタラクティブなログ解析を実現した。
トランザクションのトレースと監視を行うJaegerと、Elasticsearchのデータを可視化するKibanaを統合した。
エラーや例外が発生した場合、システム全体で設定可能なエスカレーションフローにより、リアルタイムにアラートが発出可能となった。
ログ分析、最大限のカバレッジ、リアルタイムアラートにより、インシデントレスポンス時間を大幅に短縮。
プロアクティブな監視と改善により、予期しないイベントやインシデントを70%以上削減。
リアルタイムかつプロアクティブなアラートにより、ダウンタイムのリスクは大幅に軽減。
自動化と包括的なインシデントレポートの活用により、デバッグとバグフィックスにかかる時間を短縮。
- Elasticsearchの導入、運用、スケールアップをダウンタイムなしで容易に実現するフルマネージドサービスです。
- AWSで稼働している各サービスを監視するリアルタイムでモニタリングサービスです。
- クラウド型のインテリジェントなオブジェクトストレージサービスのための、拡張性、高速性、耐久性に優れたソリューションです。
- 多様なデータソースから生成される大容量データを収集、検索、分析、可視化するためのオープンソース技術のパッケージです。
- マイクロサービスやコンテナ向けのオープンソースの監視・アラートソリューションで、柔軟なクエリーとリアルタイムの通知を提供します。
- 多くのデータソースからデータを取り込み、そのデータをクエリし、美しくカスタマイズ可能なチャートに表示して簡単に分析できるオープンソースのダッシュボード可視化ツールです。
- 複雑なマイクロサービス環境の監視やトラブルシューティングに使用される、分散サービス間のトランザクションをトレースするためのオープンソースソフトウェアです。