Apa itu ketersediaan tinggi?

Pemandangan udara Hong Kong di malam hari, dengan jalan dan lalu lintas

Penyusun

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Apa itu ketersediaan tinggi?

Ketersediaan tinggi (HA) adalah istilah yang mengacu pada kemampuan sistem untuk dapat diakses dan diandalkan hampir 100% persen sepanjang waktu.

Sistem yang sangat tersedia harus mampu menahan pemadaman, termasuk waktu henti terjadwal dan bencana di seluruh lokasi. Biasanya, sistem HA memenuhi dua karakteristik:

Mereka harus tersedia untuk digunakan hampir 100% sepanjang waktu.
Mereka harus dapat memenuhi serangkaian harapan pengguna tertentu yang telah ditentukan.

Dengan pertumbuhan inisiatif Transformasi digital dan perpindahan banyak layanan berikutnya ke cloud, solusi ketersediaan tinggi kini ditawarkan oleh banyak perusahaan teknologi dan perangkat lunak sebagai layanan (SaaS), termasuk Microsoft, Amazon (AWS), IBM®, Red Hat®, dan banyak lagi.

Ketersediaan tinggi dari sistem TI sangat penting dalam industri di mana aplikasi penting bergantung pada sedikit atau tidak ada waktu henti sistem. Misalnya, di rumah sakit dan pusat data, pengguna bergantung pada solusi ketersediaan tinggi untuk melakukan banyak fungsi rutin sehari-hari. Jika pengguna tidak dapat mengakses sistem karena alasan apa pun, itu dianggap 'tidak tersedia'. Periode waktu suatu sistem tidak tersedia bagi pengguna dikenal sebagai waktu henti.

HA versus Pemulihan Bencana (DR)

Pemulihan bencana (DR) terdiri atas teknologi infrastruktur TI dan praktik terbaik yang dirancang untuk mencegah atau meminimalkan kehilangan data dan keberlangsungan bisnis yang diakibatkan oleh peristiwa bencana. Ketersediaan tinggi (HA), di sisi lain, biasanya menyangkut kegagalan atau kesalahan yang lebih kecil yang dapat berdampak pada ketersediaan sistem.

Meskipun mereka berbeda, DR dan HA sama-sama memiliki tujuan meminimalkan gangguan pada sistem TI , dan keduanya biasanya menggunakan komponen redundan dan sistem redundan sebagai bagian dari strategi keseluruhan. Selain itu, baik DR dan HA menggunakan cadangan data untuk membuat data tersedia jika terjadi berbagai masalah, termasuk kegagalan perangkat keras , kegagalan perangkat lunak, dan pemadaman listrik.

HA versus toleransi kesalahan

Toleransi kesalahan adalah kemampuan sistem untuk terus beroperasi meskipun satu atau lebih komponen pentingnya gagal. Seperti pada HA, toleransi kesalahan membantu menjaga ketersediaan sistem selama atau setelah gangguan terjadi.

Namun, perbedaan antara toleransi kesalahan dan HA terletak pada cara mereka menangani waktu henti. Sementara HA berusaha meminimalkan waktu henti , sedangkan toleransi kesalahan bertujuan mencapai nol waktu henti, yang hanya bisa dicapai denga redundansi, yaitu memiliki cadangan atau salinan sekunder dari setiap komponen tunggal dalam infrastruktur.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Manfaat ketersediaan tinggi

Dengan semakin banyak perusahaan mengandalkan layanan online dan arsitektur cloud serta hybrid cloud untuk menyediakan aplikasi dan layanan penting, tuntutan infrastruktur meningkat sehingga ketersediaan tinggi menjadi prioritas utama. Berikut beberapa manfaat umum dari sistem dengan ketersediaan sangat tinggi.

Meningkatkan fleksibilitas

Dengan transformasi digital sebagai fokus utama banyak perusahaan, ketersediaan sistem yang tinggi sangat penting agar karyawan dan pelanggan dapat mengakses aplikasi penting tanpa batasan.¹.

Data aman

Dengan arsitektur ketersediaan tinggi, data terpenting organisasi selalu tersedia, dapat diakses, dan terlindungi dari pelanggaran tidak sah.

Peningkatan reputasi merek

Kegagalan sistem yang menyebabkan waktu henti selama menit atau jam dapat merusak citra perusahaan di berbagai industri, seperti SaaS, penerbangan, dan teknologi mobile². Infrastruktur dengan ketersediaan tinggi memastikan reputasi merek tetap terjaga dari gangguan akibat pemadaman atau waktu henti yang tidak terduga.

Layanan pelanggan yang lebih baik

Penyedia Layanan Terkelola (MSP) harus menjamin ketersediaan jaringan yang tinggi agar dapat memenuhi perjanjian tingkat layanan (SLA) mereka. Sistem HA membantu MSP menyediakan jaringan yang andal bagi klien penting mereka, seperti jaringan yang mendukung kendaraan otonom agar dapat berjalan dengan aman atau fasilitas kesehatan dalam mengelola catatan pasien.

AI Academy

Mencapai kesiapan AI dengan hybrid cloud

Dipandu oleh pemimpin terkemuka IBM, kurikulumnya dirancang untuk membantu pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan untuk memprioritaskan investasi AI yang dapat mendorong pertumbuhan.

Buka episode

Cara mencapai ketersediaan tinggi

Apakah berusaha mencapai nol waktu henti di industri seperti perawatan kesehatan atau keuangan, atau hanya ingin menghindari kerusakan reputasi akibat pemadaman, bisnis yang mengutamakan ketersediaan tinggi biasanya mengikuti proses 4 langkah.

Hapus titik kegagalan tunggal: Titik kegagalan tunggal adalah komponen yang akan menyebabkan seluruh sistem berhenti berfungsi jika gagal. Misalnya, jika serangkaian server beroperasi pada satu sakelar jaringan dan sakelar itu gagal, setiap server di jaringan akan gagal. Taktik yang disebut penyeimbangan beban—di mana pekerjaan didistribusikan di seluruh kapasitas sistem—sering digunakan untuk mengurangi dan bahkan menghilangkan satu titik kegagalan.
Buat failover yang andal: Failover adalah transfer beban kerja dari sistem utama ke sistem sekunder jika terjadi kegagalan pada sistem utama. Ketika bisnis membuat failover yang andal, beban kerja dapat dengan mudah ditransfer tanpa waktu henti yang signifikan, kehilangan data , atau penurunan kinerja operasional.
Mendeteksi kegagalan secara instan: Ketersediaan tinggi bergantung pada tersedianya proses untuk mendeteksi kegagalan atau kesalahan dalam sistem saat terjadi. Banyak sistem modern yang memiliki deteksi kegagalan otomatis. Beberapa bahkan dapat mendeteksi kegagalan dan memilih tindakan selanjutnya, seperti menerapkan proses failover .
Bangun kemampuan pencadangan dan pemulihan data yang kuat: Ketika bagian-bagian individual dari suatu sistem gagal, data dapat hilang jika prosedur pencadangan dan pemulihan yang tepat tidak ada. Teknologi dan praktik perlindungan data membuat salinan data dan aplikasi secara berkala ke perangkat sekunder yang terpisah sehingga data dan aplikasi dapat dipulihkan dengan cepat.

Penyeimbangan beban

Banyak sistem HA menggunakan penyeimbangan beban, proses mendistribusikan lalu lintas di antara beberapa server untuk mengoptimalkan ketersediaan aplikasi. Misalnya, dengan situs web lalu lintas tinggi atau layanan cloud, sistem menerima jutaan permintaan pengguna setiap hari. Penyeimbangan beban memastikan bahwa aplikasi dapat mengirimkan konten dari server web ke pengguna dengan cepat dan tanpa gangguan. Penyeimbangan beban, terutama penggunaan banyak penyeimbang beban sekaligus, dapat membantu menjamin tidak ada komponen tunggal dalam sistem yang kewalahan yang menyebabkan satu titik kegagalan yang dapat menyebabkan waktu henti atau pemadaman.

Redundansi

Redundansi—memiliki komponen sekunder atau cadangan yang tersedia untuk diambil alih ketika komponen utama gagal—adalah bagian penting dari sistem ketersediaan tinggi . Redundansi memungkinkan database tetap tersedia untuk pengguna dan aplikasi bahkan ketika komponen tidak berfungsi. Jika sebuah komponen dalam sebuah sistem tidak redundan, komponen tersebut akan dianggap sebagai satu titik kegagalan , karena kehilangan komponen tersebut dapat berpotensi menghentikan seluruh sistem untuk bekerja.

Klaster ketersediaan tinggi

Klaster ketersediaan tinggi, atau pengelompokan ketersediaan tinggi, adalah kumpulan mesin yang terhubung dan bekerja bersama sebagai satu sistem. Jika satu mesin dalam klaster gagal, perangkat lunak pengelola klaster akan memindahkan beban kerjanya ke mesin lain. Dalam klaster ketersediaan tinggi, penyimpanan bersama antar node (koimputer) memastikan tidak ada kehilangan data saat satu node berhenti berfungsi.

Bagaimana Anda mengukur ketersediaan tinggi?

Ketersediaan tinggi berarti sistem beroperasi 100% tanpa pernah mengalami pemadaman tunggal. Meskipun tidak ada sistem yang benar-benar 100% operasional, menetapkan target ini membantu mengukur tingkat ketersediaan sistem dalam suatu periode. Metrik yang paling umum digunakan untuk sistem dan layanan dengan ketersediaan tinggi adalah ketersediaan lima sembilan .

Ketersediaan lima sembilan

Ketersediaan lima sembilan berarti sistem dapat beroperasi selama 99,999% waktu. Biasanya, hanya sistem di industri yang sangat penting seperti perawatan kesehatan, transportasi, keuangan, atau pemerintahan yang membutuhkan tingkat ketersediaan lima sembilan. Sistem tersebut sangat krusial bagi kehidupan masyarakat, akses terhadap makanan dan tempat tinggal, serta kesejahteraan ekonomi.

Sistem di industri yang sangat penting ini biasanya tidak memerlukan ketersediaan operasional setinggi itu dan dapat menerima ketersediaan “tiga atau empat sembilan” (99,9% atau 99,99%). Cara lain yang sering digunakan adalah menyebut sistem dengan ketersediaan sangat tinggi memiliki tingkat “99.9%/99.999% waktu aktif."

Metrik penting lainnya: Rata-rata dan waktu pemulihan

Selain lima sembilan ketersediaan, IT System Manager menggunakan beberapa metrik utama lainnya untuk mengukur seberapa besar ketersediaan sistem mereka:

Mean time between failure (MTBF): Mean time between failure (MTBF) adalah ukuran keandalan sistem atau komponen. Ini adalah elemen penting dalam manajemen pemeliharaan, yang mewakili waktu rata-rata sebuah sistem atau komponen akan beroperasi sebelum mengalami kegagalan. Formula MTBF sering digunakan dalam konteks pemeliharaan sistem industri atau elektronik, yang mana kegagalan komponen dapat menyebabkan waktu henti yang signifikan atau bahkan risiko keselamatan, tetapi MTBF digunakan di berbagai jenis sistem yang dapat diperbaiki dan industri yang beragam.
Waktu rata-rata untuk memperbaiki (MTTR): Mean time to repair (MTTR), kadang-kadang disebut sebagai mean time to recovery, adalah metrik yang digunakan untuk mengukur waktu rata-rata yang diperlukan untuk memperbaiki sistem atau peralatan setelah mengalami kegagalan. MTTR mencakup waktu dari saat kegagalan terjadi hingga saat sistem atau peralatan berfungsi penuh kembali. Ini termasuk waktu yang dibutuhkan untuk mendeteksi kegagalan, mendiagnosis masalah dan memperbaiki masalah. MTTR merupakan metrik yang penting untuk dipantau karena metrik ini mengevaluasi ketersediaan dan keandalan sistem dan peralatan.
Tujuan waktu pemulihan (RTO): Tujuan waktu pemulihan (RTO) adalah lamanya waktu yang diperlukan untuk pulih dari pemadaman (terjadwal, tidak terjadwal, atau bencana) dan melanjutkan operasi normal untuk sistem, aplikasi, atau sekumpulan aplikasi. RTO mungkin berbeda untuk pemadaman terjadwal, tidak terjadwal, dan pemulihan bencana .
Tujuan titik pemulihan (RPO): Tujuan titik pemulihan (RPO)adalah titik waktu relatif terhadap kegagalan yang Anda perlukan untuk mempertahankan data. Data yang berubah sebelum kegagalan dalam periode waktu ini harus dapat dipulihkan. Nilai nol juga valid, yang berarti tidak ada kehilangan data sama sekali.

Contoh ketersediaan tinggi

Ketika organisasi di banyak industri melakukan inisiatif transformasi digital yang luas, tuntutan ketersediaan infrastruktur mereka meningkat. Pekerjaan jarak jauh dan penyebaran jaringan 5G telah membuatnya normal bagi pengguna untuk berharap dapat mengakses data dan aplikasi dari mana saja dan kapan saja. Tetapi hanya jika sistem yang mendasari yang mendukung aplikasi dan mengatur akses ke data tersedia. Berikut adalah beberapa contoh sistem yang sangat tersedia yang membantu perusahaan modern berkembang:

Catatan kesehatan elektronik (EHR)

Tidak ada lagi cerita seorang dokter membolak-balik file di lemari untuk menemukan tanggal vaksinasi terakhir Anda. Saat ini, jika Anda datang ke ruang gawat darurat atau kantor spesialis, hampir dapat dipastikan dokter Anda akan mengakses catatan Anda secara online. Karena sifat penting dan pribadi dari jenis informasi ini, EHR adalah contoh dari sistem yang sangat tersedia yang dapat memberikan informasi akurat dengan aman dalam hitungan detik dengan hampir nol waktu henti.

Kendaraan otonom

Kendaraan tanpa pengemudi, atau otonom, seperti mobil, drone, dan lainnya, mengandalkan koneksi internet yang cepat dan kuat agar kecerdasan buatan (AI) yang mengendalikannya dapat berfungsi. Saat kendaraan otonom berhenti di lampu merah, misalnya, puluhan ribu data sedang diproses dalam waktu yang hampir real-time sehingga kendaraan tersebut berhenti di lampu merah dan melanjutkan perjalanan ke tempat tujuan. Ketersediaan yang tinggi sangat penting untuk pengoperasian yang aman dari semua jenis kendaraan otonom

Internet of Things (IoT)

Internet of Things (IoT) adalah jaringan perangkat fisik, kendaraan, peralatan, dan objek lain yang disematkan dengan sensor yang terhubung ke internet yang memungkinkan mereka mengumpulkan dan berbagi data. Seiring dengan meluasnya ekosistem IoT ke jalan raya, saluran air, peralatan rumah tangga, pemantauan cuaca, dan banyak lagi, jutaan perangkat mengandalkan jaringan. membantu memastikan bahwa jaringan yang mendukung perangkat IoT berjalan dengan lancar dan tanpa gangguan.Ketersediaan tinggi

Big data

Karena perusahaan menemukan lebih banyak cara untuk menggunakan sejumlah besar data yang mereka hasilkan di era digital, ketersediaan yang tinggi sangat penting untuk pemrosesan data yang efisien dan efektif. Pusat data dan platform analitik yang kompleks melakukan pemrosesan data secara terus menerus dan analisis real-time dan waktu henti dapat menghambat proyek selama berbulan-bulan. Solusi HA membantu perusahaan memiliki akses 24/7/365 ke data terpenting mereka.

Memodernisasi Infrastruktur TI untuk Membuka Manfaat Hybrid Cloud dan AI

Temukan bagaimana organisasi memodernisasi infrastruktur TI mereka dengan server, penyimpanan, dan kemampuan hybrid cloud generasi terbaru untuk mendukung AI, mesin virtual, dan aplikasi modern. Panduan ini membahas bagaimana teknologi, orang, dan proses harus berkembang secara bersama-sama untuk membangun budaya perubahan yang mempercepat modernisasi dan mendorong hasil bisnis yang terukur.

Sumber daya

AI Menjadi Beban Kerja Enterprise Terbesar. Apakah Infrastruktur Anda Siap?

Menurut survei AI View 2026 dari IDC, AI dengan cepat melampaui seluruh beban kerja lainnya, namun banyak organisasi masih belum memiliki strategi infrastruktur yang diperlukan untuk menskalakan secara sukses. Cari tahu mengapa platform AI terintegrasi yang mencakup seluruh tumpukan teknologi kini menjadi kunci untuk mempercepat penerapan, meningkatkan ROI, dan menghadirkan AI ke seluruh lini organisasi.

Infrastruktur AI untuk Masa Depan Perbankan

Jelajahi bagaimana bank Tingkat 1 membangun fondasi infrastruktur AI untuk menskalakan dengan aman dan efektif. Makalah ini menyoroti 10 contoh penggunaan AI berdampak tinggi dan peta jalan pragmatis, menunjukkan bagaimana hybrid cloud, IBM Z, dan arsitektur data modern memungkinkan AI yang aman, real-time, dan sesuai dalam skala besar.

Infrastruktur TI Modern untuk Perusahaan Berbasis AI

Temukan bagaimana kemampuan hybrid cloud, otomatisasi, dan AI yang terintegrasi mengubah infrastruktur TI tradisional menjadi platform yang dapat diskalakan, aman, dan cerdas. Demo interaktif ini menunjukkan bagaimana perusahaan dapat mengoptimalkan kinerja, mengurangi kompleksitas, dan mendukung beban kerja real-time.

Mempercepat inovasi dengan fondasi hybrid cloud yang aman

Kerangka kerja untuk menyederhanakan operasi hybrid cloud dengan keamanan dan tata kelola yang konsisten.

Bagaimana Harvard Menskalakan Riset Keamanan AI dengan Infrastruktur Cloud Berkinerja Tinggi

Keterbatasan ketersediaan GPU sempat memperlambat riset keamanan AI tingkat lanjut di Calmon Lab, Harvard. Dengan memanfaatkan IBM Cloud dengan infrastruktur berbasis NVIDIA H100, tim menghilangkan hambatan komputasi, mencapai kecepatan inferensi melebihi 2.000 token per detik, dan secara dramatis mempercepat eksperimen LLM dan riset penyelarasan model.

Mempercepat inovasi dalam skala besar dengan platform cloud terpadu

Pelajari bagaimana tim rekayasa platform menskalakan infrastruktur dengan alur kerja otomatis dan kontrol terpusat.

Perusahaan di tahun 2030: Dirancang untuk inovasi tiada henti

Temukan lima prediksi kami tentang apa yang akan menentukan perusahaan paling sukses di tahun 2030 dan langkah-langkah yang dapat diambil para pemimpin untuk mendapatkan keuntungan yang mengutamakan AI.

Memahami biaya sesungguhnya dari gen AI

Temukan biaya tersembunyi dari peningkatan skala AI generatif dan pelajari dari pakar cara membuat investasi AI Anda lebih efisien dan berdampak.

Solusi terkait

IBM Cloud Infrastructure Center

IBM® Cloud Infrastructure Center adalah platform perangkat lunak yang kompatibel dengan OpenStack yang dirancang untuk mengelola infrastruktur cloud pribadi yang berjalan di IBM® zSistem dan IBM® LinuxONE.

Jelajahi Cloud Infrastructure Center

Infrastruktur IT

Menyediakan infrastruktur yang aman dan siap AI di seluruh lingkungan hybrid cloud

Jelajahi solusi infrastruktur TI

Layanan infrastruktur

Percepat, amankan, dan optimalkan infrastruktur hybrid cloud dan perusahaan Anda dengan bimbingan pakar dari IBM® Technology Expert Labs.

Jelajahi layanan infrastruktur

Ambil langkah selanjutnya

Ubah infrastruktur perusahaan Anda dengan solusi hybrid cloud dan siap untuk AI dari IBM®. Jelajahi server, penyimpanan, dan perangkat lunak yang dirancang untuk melindungi, menskalakan, dan memodernisasi bisnis Anda—atau dapatkan insight pakar untuk memperkuat strategi AI generatif Anda.

Catatan kaki

1. "Gartner mengatakan 89% Dewan Direksi Mengatakan Digital Tertanam dalam Semua Strategi Pertumbuhan Bisnis , Gartner, 19 Oktober 2022

2. "The Global IT Outage Memberikan Beberapa Pelajaran Manajemen Krisis , Forbes, 19 Juli 2024