“Ketahanan” adalah salah satu praktik teknik yang sangat penting untuk keberhasilan/kegagalan inisiatif transformasi digital apa pun. Seperti yang mungkin Anda ketahui, ketahanan secara langsung berkontribusi terhadap ketersediaan keseluruhan solusi melalui metrik seperti Mean Time to Recover (MTTR) dan Mean Time Between Failures (MTBF), serta secara langsung menentukan tercipta atau gagalnya pengalaman pengguna yang transformatif.

Ketahanan pada dasarnya adalah kemampuan sistem untuk bertahan melawan kegagalan. Sementara kegagalan dalam sistem pada akhirnya dapat bermanifestasi sebagai kesalahan atau tidak tersedianya komponen/sistem, daftar faktor yang dapat menyebabkan kegagalan dalam sistem cloud-native yang terdistribusi sangat signifikan.

Sudah ada banyak materi yang berfokus pada cara “menerapkan” ketahanan dalam aplikasi cloud-native. Praktik Build for Reliability Garage dari IBM® memberikan pengenalan dan kerangka kerja yang bagus untuk implementasi ketahanan. Ada juga kerangka kerja seperti chaos monkey atau alat seperti Gremlin yang membantu dalam “menguji“ ketahanan aplikasi.

Namun tantangannya tetap — bagaimana kita Verify apakah solusi “cukup tangguh”? Secara khusus, bagaimana kita tahu jika pengujian kami mencakup skenario yang diperlukan dan memadai? Bagaimana kita tahu kegagalan apa yang diinduksi?

Kami ingin mengusulkan pendekatan empat langkah berikut untuk alamat tantangan di atas.