Apa itu ketersediaan tinggi?

29 Juli 2024

Penyusun

Mesh Flinders

Author, IBM Think

Ian Smalley

Senior Editorial Strategist

Apa itu ketersediaan tinggi?

Ketersediaan tinggi (HA) adalah istilah yang mengacu pada kemampuan sistem untuk dapat diakses dan diandalkan hampir 100% persen sepanjang waktu. 

Sistem yang sangat tersedia harus mampu menahan pemadaman, termasuk waktu henti terjadwal dan bencana di seluruh lokasi. Biasanya, sistem HA memenuhi dua karakteristik:

  • Mereka harus tersedia untuk digunakan hampir 100% sepanjang waktu.
  • Mereka harus dapat memenuhi serangkaian harapan pengguna tertentu yang telah ditentukan. 

Dengan pertumbuhan inisiatif Transformasi digital dan perpindahan banyak layanan berikutnya ke cloud, solusi ketersediaan tinggi kini ditawarkan oleh banyak perusahaan teknologi dan perangkat lunak sebagai layanan (SaaS), termasuk Microsoft, Amazon (AWS), IBM®, Red Hat®, dan banyak lagi.

Ketersediaan tinggi dari sistem TI sangat penting dalam industri di mana aplikasi penting bergantung pada sedikit atau tidak ada waktu henti sistem. Misalnya, di rumah sakit dan pusat data, pengguna bergantung pada solusi ketersediaan tinggi untuk melakukan banyak fungsi rutin sehari-hari. Jika pengguna tidak dapat mengakses sistem karena alasan apa pun, itu dianggap 'tidak tersedia'.  Periode waktu suatu sistem tidak tersedia bagi pengguna dikenal sebagai waktu henti.

HA versus Pemulihan Bencana (DR)

Pemulihan bencana (DR) terdiri atas teknologi infrastruktur TI dan praktik terbaik yang dirancang untuk mencegah atau meminimalkan kehilangan data dan keberlangsungan bisnis yang diakibatkan oleh peristiwa bencana. Ketersediaan tinggi (HA), di sisi lain, biasanya menyangkut kegagalan atau kesalahan yang lebih kecil yang dapat berdampak pada ketersediaan sistem.

Meskipun mereka berbeda, DR dan HA sama-sama memiliki tujuan meminimalkan gangguan pada sistem TI , dan keduanya biasanya menggunakan komponen redundan dan sistem redundan sebagai bagian dari strategi keseluruhan. Selain itu, baik DR dan HA menggunakan cadangan data untuk membuat data tersedia jika terjadi berbagai masalah, termasuk kegagalan perangkat keras , kegagalan perangkat lunak, dan pemadaman listrik.

HA versus toleransi kesalahan

Toleransi kesalahan adalah kemampuan sistem untuk terus beroperasi meskipun satu atau lebih komponen pentingnya gagal. Seperti pada HA, toleransi kesalahan membantu menjaga ketersediaan sistem selama atau setelah gangguan terjadi.

Namun, perbedaan antara toleransi kesalahan dan HA terletak pada cara mereka menangani waktu henti. Sementara HA berusaha meminimalkan  waktu henti , sedangkan  toleransi kesalahan  bertujuan mencapai nol waktu henti, yang hanya bisa dicapai denga redundansi, yaitu memiliki cadangan atau salinan sekunder dari setiap komponen tunggal dalam infrastruktur.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Manfaat ketersediaan tinggi

Dengan semakin banyak perusahaan mengandalkan layanan online dan arsitektur cloud serta hybrid cloud untuk menyediakan aplikasi dan layanan penting, tuntutan infrastruktur meningkat sehingga ketersediaan tinggi menjadi prioritas utama. Berikut beberapa manfaat umum dari sistem dengan ketersediaan sangat tinggi.

Meningkatkan fleksibilitas

Dengan transformasi digital sebagai fokus utama banyak perusahaan, ketersediaan sistem yang tinggi sangat penting agar karyawan dan pelanggan dapat mengakses aplikasi penting tanpa batasan.1.

Data aman
Dengan arsitektur ketersediaan tinggi, data terpenting organisasi selalu tersedia, dapat diakses, dan terlindungi dari pelanggaran tidak sah.
Peningkatan reputasi merek

Kegagalan sistem yang menyebabkan waktu henti selama menit atau jam dapat merusak citra perusahaan di berbagai industri, seperti SaaS, penerbangan, dan teknologi mobile2. Infrastruktur dengan ketersediaan tinggi memastikan reputasi merek tetap terjaga dari gangguan akibat pemadaman atau waktu henti yang tidak terduga.

Layanan pelanggan yang lebih baik

 Penyedia Layanan Terkelola (MSP) harus menjamin ketersediaan jaringan yang tinggi agar dapat memenuhi perjanjian tingkat layanan (SLA) mereka. Sistem HA membantu MSP menyediakan jaringan yang andal bagi klien penting mereka, seperti jaringan yang mendukung kendaraan otonom agar dapat berjalan dengan aman atau fasilitas kesehatan dalam mengelola catatan pasien.

AI Academy

Mencapai kesiapan AI dengan hybrid cloud

Dipandu oleh pemimpin terkemuka IBM, kurikulumnya dirancang untuk membantu pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan untuk memprioritaskan investasi AI yang dapat mendorong pertumbuhan.

Cara mencapai ketersediaan tinggi

Apakah berusaha mencapai nol waktu henti di industri seperti perawatan kesehatan atau keuangan, atau hanya ingin menghindari kerusakan reputasi akibat pemadaman, bisnis yang mengutamakan ketersediaan tinggi  biasanya mengikuti proses 4 langkah.

  1. Hapus titik kegagalan tunggal: Titik kegagalan tunggal adalah komponen yang akan menyebabkan seluruh sistem berhenti berfungsi jika gagal. Misalnya, jika serangkaian server beroperasi pada satu sakelar jaringan dan sakelar itu gagal, setiap server di jaringan akan gagal. Taktik yang disebut penyeimbangan beban—di mana pekerjaan didistribusikan di seluruh kapasitas sistem—sering digunakan untuk mengurangi dan bahkan menghilangkan satu titik kegagalan.


  2. Buat failover yang andal: Failover adalah transfer beban kerja dari sistem utama ke sistem sekunder jika terjadi kegagalan pada sistem utama. Ketika bisnis membuat failover yang andal, beban kerja dapat dengan mudah ditransfer tanpa waktu henti yang signifikan, kehilangan data , atau penurunan kinerja operasional.

  3. Mendeteksi kegagalan secara instan: Ketersediaan tinggi bergantung pada tersedianya proses untuk mendeteksi kegagalan atau kesalahan dalam sistem saat terjadi. Banyak sistem modern yang memiliki deteksi kegagalan otomatis. Beberapa bahkan dapat mendeteksi kegagalan dan memilih tindakan selanjutnya, seperti menerapkan proses failover .

  4. Bangun kemampuan pencadangan dan pemulihan data yang kuat: Ketika bagian-bagian individual dari suatu sistem gagal, data dapat hilang jika prosedur pencadangan dan pemulihan yang tepat tidak ada. Teknologi dan praktik perlindungan data membuat salinan data dan aplikasi secara berkala ke perangkat sekunder yang terpisah sehingga data dan aplikasi dapat dipulihkan dengan cepat.

Penyeimbangan beban

Banyak sistem HA menggunakan penyeimbangan beban, proses mendistribusikan lalu lintas di antara beberapa server untuk mengoptimalkan ketersediaan aplikasi. Misalnya, dengan situs web lalu lintas tinggi atau layanan cloud, sistem menerima jutaan permintaan pengguna setiap hari. Penyeimbangan beban memastikan bahwa aplikasi dapat mengirimkan konten dari server web ke pengguna dengan cepat dan tanpa gangguan. Penyeimbangan beban, terutama penggunaan banyak penyeimbang beban sekaligus, dapat membantu menjamin tidak ada komponen tunggal dalam sistem yang kewalahan yang menyebabkan satu titik kegagalan yang dapat menyebabkan waktu henti atau pemadaman.

Redundansi

Redundansi—memiliki komponen sekunder atau cadangan yang tersedia untuk diambil alih ketika komponen utama gagal—adalah bagian penting dari sistem ketersediaan tinggi . Redundansi memungkinkan database tetap tersedia untuk pengguna dan aplikasi bahkan ketika komponen tidak berfungsi. Jika sebuah komponen dalam sebuah sistem tidak redundan, komponen tersebut akan dianggap sebagai satu titik kegagalan , karena kehilangan komponen tersebut dapat berpotensi menghentikan seluruh sistem untuk bekerja.

Klaster ketersediaan tinggi

Klaster ketersediaan tinggi, atau pengelompokan ketersediaan tinggi, adalah kumpulan mesin yang terhubung dan bekerja bersama sebagai satu sistem. Jika satu mesin dalam klaster gagal, perangkat lunak pengelola klaster akan memindahkan beban kerjanya ke mesin lain. Dalam klaster ketersediaan tinggi, penyimpanan bersama antar node (koimputer) memastikan tidak ada kehilangan data saat satu node berhenti berfungsi.

Bagaimana Anda mengukur ketersediaan tinggi?

Ketersediaan tinggi berarti sistem beroperasi 100% tanpa pernah mengalami pemadaman tunggal. Meskipun tidak ada sistem yang benar-benar 100% operasional, menetapkan target ini membantu mengukur tingkat ketersediaan sistem dalam suatu  periode.  Metrik yang paling umum digunakan untuk sistem dan layanan dengan ketersediaan tinggi adalah ketersediaan lima sembilan .

Ketersediaan lima sembilan

Ketersediaan lima sembilan berarti sistem dapat beroperasi selama 99,999% waktu. Biasanya, hanya sistem di industri yang sangat penting seperti perawatan kesehatan, transportasi, keuangan, atau pemerintahan yang membutuhkan tingkat ketersediaan lima sembilan. Sistem tersebut sangat krusial bagi kehidupan masyarakat, akses terhadap makanan dan tempat tinggal, serta kesejahteraan ekonomi.

Sistem di industri yang sangat penting ini biasanya tidak memerlukan ketersediaan operasional setinggi itu dan dapat menerima ketersediaan “tiga atau empat sembilan” (99,9% atau 99,99%). Cara lain yang sering digunakan adalah menyebut sistem dengan ketersediaan sangat tinggi memiliki tingkat “99.9%/99.999% waktu aktif."

Metrik penting lainnya: Rata-rata dan waktu pemulihan

Selain lima sembilan ketersediaan, IT System Manager  menggunakan beberapa  metrik utama lainnya untuk mengukur seberapa besar ketersediaan sistem mereka:

  • Mean time between failure (MTBF): Mean time between failure (MTBF) adalah ukuran keandalan sistem atau komponen. Ini adalah elemen penting dalam manajemen pemeliharaan, yang mewakili waktu rata-rata sebuah sistem atau komponen akan beroperasi sebelum mengalami kegagalan. Formula MTBF sering digunakan dalam konteks pemeliharaan sistem industri atau elektronik, yang mana kegagalan komponen dapat menyebabkan waktu henti yang signifikan atau bahkan risiko keselamatan, tetapi MTBF digunakan di berbagai jenis sistem yang dapat diperbaiki dan industri yang beragam.

  • Waktu rata-rata untuk memperbaiki (MTTR): Mean time to repair (MTTR), kadang-kadang disebut sebagai mean time to recovery, adalah metrik yang digunakan untuk mengukur waktu rata-rata yang diperlukan untuk memperbaiki sistem atau peralatan setelah mengalami kegagalan. MTTR mencakup waktu dari saat kegagalan terjadi hingga saat sistem atau peralatan berfungsi penuh kembali. Ini termasuk waktu yang dibutuhkan untuk mendeteksi kegagalan, mendiagnosis masalah dan memperbaiki masalah. MTTR merupakan metrik yang penting untuk dipantau karena metrik ini mengevaluasi ketersediaan dan keandalan sistem dan peralatan.

  • Tujuan waktu pemulihan (RTO): Tujuan waktu pemulihan (RTO) adalah lamanya waktu yang diperlukan untuk pulih dari pemadaman (terjadwal, tidak terjadwal, atau bencana) dan melanjutkan operasi normal untuk sistem, aplikasi, atau sekumpulan aplikasi.  RTO mungkin berbeda untuk pemadaman terjadwal, tidak terjadwal, dan pemulihan bencana .

  • Tujuan titik pemulihan (RPO):  Tujuan titik pemulihan (RPO)adalah titik waktu relatif terhadap kegagalan yang Anda perlukan untuk mempertahankan data. Data yang berubah sebelum kegagalan dalam periode waktu ini harus dapat dipulihkan. Nilai nol juga valid, yang berarti tidak ada kehilangan data sama sekali.

Contoh ketersediaan tinggi

Ketika organisasi di banyak industri melakukan inisiatif transformasi digital yang luas, tuntutan ketersediaan infrastruktur mereka meningkat. Pekerjaan jarak jauh dan penyebaran jaringan 5G telah membuatnya normal bagi pengguna untuk berharap dapat mengakses data dan aplikasi dari mana saja dan kapan saja. Tetapi hanya jika sistem yang mendasari yang mendukung aplikasi dan mengatur akses ke data tersedia. Berikut adalah beberapa contoh sistem yang sangat tersedia yang membantu perusahaan modern berkembang:

Catatan kesehatan elektronik (EHR)

Tidak ada lagi cerita seorang dokter membolak-balik file di lemari untuk menemukan tanggal vaksinasi terakhir Anda. Saat ini, jika Anda datang ke ruang gawat darurat atau kantor spesialis, hampir dapat dipastikan dokter Anda akan mengakses catatan Anda secara online. Karena sifat penting dan pribadi dari jenis informasi ini, EHR adalah contoh dari sistem yang sangat tersedia yang dapat memberikan informasi akurat dengan aman dalam hitungan detik dengan hampir nol waktu henti.

Kendaraan otonom

Kendaraan tanpa pengemudi, atau otonom, seperti mobil, drone, dan lainnya, mengandalkan koneksi internet yang cepat dan kuat agar kecerdasan buatan (AI) yang mengendalikannya dapat berfungsi. Saat kendaraan otonom berhenti di lampu merah, misalnya, puluhan ribu data sedang diproses dalam waktu yang hampir real-time sehingga kendaraan tersebut berhenti di lampu merah dan melanjutkan perjalanan ke tempat tujuan. Ketersediaan yang tinggi sangat penting untuk pengoperasian yang aman dari semua jenis kendaraan otonom

Internet of Things (IoT)

Internet of Things (IoT) adalah jaringan perangkat fisik, kendaraan, peralatan, dan objek lain yang disematkan dengan sensor yang terhubung ke internet yang memungkinkan mereka mengumpulkan dan berbagi data. Seiring dengan meluasnya ekosistem IoT ke jalan raya, saluran air, peralatan rumah tangga, pemantauan cuaca, dan banyak lagi, jutaan perangkat mengandalkan jaringan. membantu memastikan bahwa jaringan yang mendukung perangkat IoT berjalan dengan lancar dan tanpa gangguan.Ketersediaan tinggi 

Big data

Karena perusahaan menemukan lebih banyak cara untuk menggunakan sejumlah besar data yang mereka hasilkan di era digital, ketersediaan yang tinggi sangat penting untuk pemrosesan data yang efisien dan efektif. Pusat data dan platform analitik yang kompleks melakukan pemrosesan data secara terus menerus dan analisis real-time dan waktu henti dapat menghambat proyek selama berbulan-bulan. Solusi HA membantu perusahaan memiliki akses 24/7/365 ke data terpenting mereka.

Solusi terkait
IBM Cloud Infrastructure Center 

IBM Cloud Infrastructure Center adalah platform perangkat lunak yang kompatibel dengan OpenStack untuk mengelola infrastruktur cloud pribadi di IBM zSystems dan IBM LinuxONE.

Jelajahi Cloud Infrastructure Center
Solusi Infrastruktur TI

Temukan server, penyimpanan, dan perangkat lunak yang dirancang untuk hybrid cloud dan strategi AI perusahaan Anda.

Jelajahi solusi infrastruktur TI
Solusi Infrastruktur Cloud

Temukan solusi infrastruktur cloud yang tepat untuk kebutuhan bisnis Anda dan tingkatkan sumber daya sesuai permintaan.

Solusi cloud
Ambil langkah selanjutnya

Ubah infrastruktur perusahaan Anda dengan solusi hybrid cloud yang siap AI dari IBM. Temukan server, penyimpanan, dan perangkat lunak yang dirancang untuk mengamankan, menskalakan, dan memodernisasi bisnis Anda atau mengakses insight pakar demi meningkatkan strategi AI generatif Anda.

Jelajahi solusi infrastruktur TI Unduh ebook