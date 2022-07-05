Tag
Cloud

Pendekatan Empat Langkah untuk Memverifikasi Ketahanan Aplikasi Cloud-Native

Gambar abstrak yang dihasilkan secara digital dari kubus kelipatan dalam warna biru dan ungu

Bagaimana Anda mengetahui apakah suatu solusi sudah “cukup tangguh”, dan bagaimana memastikan bahwa pengujian yang dilakukan telah mencakup skenario yang diperlukan?

Paradigma arsitektur cloud-native sudah ada sejak lama. Inti dari arsitektur cloud-native adalah komponen fungsional independen yang kohesif yang membawa ketangkasan bisnis, skalabilitas, dan ketahanan — berkontribusi pada percepatan waktu ke pasar, keunggulan kompetitif, dan biaya yang dioptimalkan. Paradigma ini telah didukung secara aktif melalui lingkungan teknologi poliglot.

Solusi yang diwujudkan menggunakan kombinasi arsitektur dan lingkungan teknologi di atas dapat menjadi sangat kompleks untuk dipelihara dan dikelola, terutama karena banyaknya komponen dan beberapa kerangka kerja teknologi yang diperlukan untuk realisasinya. Implementasi praktik desain dan rekayasa yang kurang optimal secara eksponensial meningkatkan kompleksitas dan risiko pemeliharaan solusi tersebut.

     

    Apa itu ketahanan?

    “Ketahanan” adalah salah satu praktik teknik yang sangat penting untuk keberhasilan/kegagalan inisiatif transformasi digital apa pun. Seperti yang mungkin Anda ketahui, ketahanan secara langsung berkontribusi terhadap ketersediaan keseluruhan solusi melalui metrik seperti Mean Time to Recover (MTTR) dan Mean Time Between Failures (MTBF), serta secara langsung menentukan tercipta atau gagalnya pengalaman pengguna yang transformatif.

    Ketahanan pada dasarnya adalah kemampuan sistem untuk bertahan melawan kegagalan. Sementara kegagalan dalam sistem pada akhirnya dapat bermanifestasi sebagai kesalahan atau tidak tersedianya komponen/sistem, daftar faktor yang dapat menyebabkan kegagalan dalam sistem cloud-native yang terdistribusi sangat signifikan.

    Sudah ada banyak materi yang berfokus pada cara “menerapkan” ketahanan dalam aplikasi cloud-native. Praktik Build for Reliability Garage dari IBM® memberikan pengenalan dan kerangka kerja yang bagus untuk implementasi ketahanan. Ada juga kerangka kerja seperti chaos monkey atau alat seperti Gremlin yang membantu dalam “menguji“ ketahanan aplikasi.

    Namun tantangannya tetap — bagaimana kita Verify apakah solusi “cukup tangguh”? Secara khusus, bagaimana kita tahu jika pengujian kami mencakup skenario yang diperlukan dan memadai? Bagaimana kita tahu kegagalan apa yang diinduksi?

    Kami ingin mengusulkan pendekatan empat langkah berikut untuk alamat tantangan di atas.

    1. Mengidentifikasi skenario dan komponen arsitektur yang perlu diuji ketahanannya

    Ini dapat dilakukan dengan mengidentifikasi “jalur lintasan unik” — pada dasarnya, urutan/kombinasi di mana komponen solusi Anda dapat digunakan untuk mendukung skenario fungsional. Skenario ini dan komponen pendukung menyediakan set dasar yang perlu diuji.

    Misalnya, aplikasi Anda mungkin mendukung satu atau beberapa hal berikut:

    • Mencari/telusuri katalog produk melalui aplikasi saluran yang memanggil layanan mikro backend, yang mengambil data dari penyimpanan data persisten.
    • Proses batch/penjadwal yang dieksekusi pada waktu/frekuensi yang telah ditentukan sebelumnya.
    • Acara yang diterbitkan pada topik yang telah dikonfigurasi sebelumnya dan diproses dengan berlangganan layanan mikro.
    • API diekspos dan dipanggil oleh beberapa sistem konsumen.

    2. Menentukan titik-titik kegagalan

    Setelah kami mengidentifikasi skenario dan komponen, langkah selanjutnya adalah menentukan apa yang bisa “gagal” dengan berbagai komponen ini. Mari kita ambil contoh layanan mikro tunggal dengan karakteristik sebagai berikut:

    • Layanan ini mengekspos API melalui sebuah gateway.
    • Layanan ini digunakan pada kerangka kerja kontainer berkemampuan Kubernetes.
    • Layanan ini mengakses sebuah basis data.
    • Layanan ini terintegrasi dengan sistem hilir.

    Pandangan ini dapat disatukan melalui identifikasi “permukaan kegagalan”, seperti di bawah ini:

    Diagram yang menggambarkan arsitektur berlapis untuk layanan mikro. Di bagian tengah terdapat sebuah kotak berwarna kuning berlabel ‘Core‘, yang dikelilingi oleh lapisan abu-abu berlabel ‘Microservice Pod‘. Di luar lapisan ini terdapat lapisan biru berlabel ‘Node‘, kemudian disusul lapisan biru muda berlabel ‘API Gateway‘. Di luar itu adalah lapisan putih berlabel ‘Sumber daya + Downstream Systems,‘ dan lapisan berwarna peach terluar berlabel ‘Compute-Storage-Network.‘ Setiap lapisan mewakili komponen dalam hierarki sistem

    3. Identifikasi penyebab kegagalan di seluruh permukaan kegagalan

    Setiap permukaan kegagalan yang diidentifikasi pada langkah sebelumnya dapat gagal karena berbagai alasan — itulah yang perlu kita identifikasi selanjutnya. Melanjutkan dengan contoh yang sama seperti sebelumnya – memetakan permukaan kegagalan ke kemungkinan penyebab dapat memberi Anda daftar berikut:

    • Inti: Layanan mikro inti itu sendiri – sebagai unit kode — dapat gagal karena masalah kehabisan memori, server aplikasi dapat macet, dll.
    • Pod dan node layanan mikro: Node/pemalut mungkin gagal dalam pemeriksaan kesehatan. VM yang menghosting platform kontainer Kubernetes mungkin macet.
    • API Gateway: Mesin API Gateway mungkin tidak responsif karena tidak mencukupi utas/memori yang diperlukan untuk permintaan servis.
    • Sistem backend: Sistem backend mungkin membutuhkan waktu yang lama untuk merespons, dan sistem mungkin macet.
    • Komputasi/penyimpanan/jaringan: Jaringan antara layanan mikro dan sistem backend (yang dapat dihosting di lokasi terpisah) mungkin turun.

    4. Bersiaplah menghadapi “penyerangan”

    Penyebab dan permukaan kegagalan dapat digunakan untuk membuat matriks seperti yang ditunjukkan di bawah ini. Dengan pemahaman ini, kami dapat menentukan dan merencanakan kombinasi skenario yang harus diantisipasi ketika solusi menghadapi berbagai bentuk “assault” atau tekanan. Ini, pada gilirannya, sekarang dapat diimplementasikan melalui kerangka kerja pengujian chaos, seperti yang disebutkan sebelumnya:

    Tabel yang menunjukkan pro dan kontra produk

    Pertimbangan tambahan

    Terakhir, tetapi tidak kalah pentingnya, pengujian kegagalan saja tidak akan cukup. Pertimbangkan skenario-skenario berikut:

    • Selain memperkenalkan kegagalan dalam satu instance komponen, Anda perlu memastikan Anda tidak memiliki auto-scaling/beberapa instance yang berjalan di platform cloud ATAU memastikan semua replika gagal sesuai kebutuhan.
    • Untuk menguji hasil yang terdegradasi (misalnya, melalui cache), Anda harus memiliki kemampuan pengujian “sebelum” dan “setelah”.

    Hal ini membutuhkan kemampuan tambahan untuk melengkapi kerangka kerja pengujian chaos Anda seperti Infrastructure as Code (IaC) atau konfigurasi ulang sumber daya cloud yang dinamis.

    Selain itu — karena pengujian aktual dengan komponen mahal — Anda mungkin juga ingin mempertimbangkan kemampuan untuk verifikasi “statis”, seperti berikut ini:

    • Validasi deskriptor penerapan untuk ReplicaSet
    • Memvalidasi konfigurasi auto-scaling untuk VM
    • Pemeriksaan kode statis untuk coba lagi, implementasi pemutus sirkuit, dll.

    Pelajari lebih lanjut

    Secara keseluruhan, kami berpandangan bahwa ketahanann memerlukan perhatian tidak hanya setelah pengembangan selesai, tetapi sepanjang siklus — mulai dari identifikasi skenario sejak awal, pemeringkatan berdasarkan dampak bisnis, hingga penggunaan kombinasi “serangan” statis dan dinamis untuk memverifikasi serta memvalidasi ketahanan pada tingkat komponen. Pendekatan yang telah kami jelaskan dalam postingan blog ini akan membantu mengatasi tantangan utama yang dikutip dalam seluruh perjalanan ini.

    Layanan pengembangan dan modernisasi aplikasi cloud-native IBM® memastikan infus praktik rekayasa dengan konsistensi dan ketelitian yang diperlukan. Lihat tautan berikut untuk mempelajari lebih lanjut:

