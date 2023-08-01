Manajemen insiden vs manajemen masalah: Apa bedanya?

Setiap hari, miliaran orang di seluruh dunia menggunakan komputer atau mobile mereka untuk mengakses Internet. Selalu, beberapa dari pengguna tersebut mencoba mengakses situs web yang lambat dimuat atau rentan mogok.

Salah satu alasan mengapa situs web berkinerja buruk adalah karena terlalu banyak orang yang mencoba mengakses situs ini pada waktu yang sama, sehingga server menjadi kewalahan. Namun, hal ini juga bisa menjadi indikasi masalah yang lebih besar, termasuk kesalahan konfigurasi DNS, kegagalan server yang berlangsung lama, atau serangan jahat dari aktor jahat.

Insiden adalah kesalahan atau komplikasi dalam layanan TI yang perlu diperbaiki. Banyak dari insiden ini merupakan tantangan sementara yang memerlukan perbaikan khusus, tetapi insiden yang mengarah ke masalah mendasar atau lebih rumit yang memerlukan penanganan yang lebih komprehensif disebut masalah.

Ini menjelaskan keberadaan manajemen insiden dan masalah, dua proses penting untuk pengendalian masalah dan kesalahan, menjaga waktu aktif, dan pada akhirnya, memberikan layanan hebat kepada pelanggan dan pemangku kepentingan lainnya.

Organisasi semakin bergantung pada teknologi digital untuk melayani pelanggan mereka dan berkolaborasi dengan mitra. Tumpukan teknologi organisasi dapat menciptakan peluang baru dan menarik untuk mengembangkan bisnisnya. Tetapi kesalahan dalam layanan juga dapat menciptakan gangguan eksponensial dan kerusakan pada reputasi dan kesehatan keuangannya.

Apa itu manajemen insiden?

Manajemen insiden adalah cara organisasi mengidentifikasi, melacak, dan menyelesaikan insiden yang mungkin mengganggu proses bisnis normal. Ini sering merupakan proses reaktif di mana insiden terjadi dan organisasi memberikan respon insiden secepat mungkin.

Peningkatan organisasi yang mengejar transformasi digital dan operasi berbasis teknologi lainnya membuat manajemen insiden menjadi lebih penting mengingat adanya ketergantungan pada teknologi untuk memberikan solusi kepada pelanggan.

Semakin banyak layanan TI organisasi yang terdiri dari sistem aplikasi, perangkat lunak, perangkat keras, dan teknologi lainnya yang kompleks dan semuanya dapat saling bergantung. Tiap proses dapat rusak, mengganggu layanan yang mereka berikan kepada pelanggan, merugikan bisnis, dan menciptakan masalah reputasi. Organisasi telah menerapkan prosedur operasi pengembangan lanjutan (DevOps) untuk meminimalkan insiden, tetapi mereka memerlukan proses penyelesaian ketika itu terjadi.

Setiap hari, organisasi menghadapi dan perlu mengelola insiden kecil dan besar, yang semuanya berpotensi mengganggu fungsi bisnis normal. Organisasi perlu memperhatikan beberapa jenis insiden, termasuk gangguan yang tidak direncanakan seperti pemadaman sistem, masalah konfigurasi jaringan, bug, insiden keamanan, kehilangan data, dan lainnya.

Seiring dengan meningkatnya kompleksitas teknologi, proses pengelolaan insiden secara strategis menjadi semakin penting. Organisasi harus memastikan bahwa setiap orang di organisasi tahu apa yang harus dilakukan jika mereka mengalami insiden.

Sistem manajemen insiden telah berevolusi dari alat bantu yang tumpul di mana karyawan mencatat insiden yang mereka amati (yang mungkin terjadi beberapa jam setelah kejadian). Sistem ini kini menjadi praktik yang kuat dan selalu aktif dengan Otomatisasi dan perangkat lunak manajemen insiden layanan mandiri, memungkinkan siapa pun di organisasi untuk melaporkan insiden ke pusat layanan.

Penting untuk segera menyelesaikan insiden dan mencegahnya terjadi lagi. Hal ini memungkinkan organisasi untuk menegakkan perjanjian tingkat layanan (SLA) mereka, yang dapat menjamin sejumlah waktu aktif atau akses ke layanan. Gagal mematuhi SLA dapat menempatkan organisasi Anda pada risiko hukum atau reputasi.

Manajer insiden adalah pemangku kepentingan utama dari proses manajemen insiden. Manajer insiden bertanggung jawab untuk mengelola respons terhadap suatu insiden dan mengomunikasikan perkembangannya kepada para pemangku kepentingan utama. Peran layanan TI yang kompleks ini mengharuskan karyawan untuk bekerja di bawah kondisi yang penuh tekanan sambil berkomunikasi dengan para pemangku kepentingan dengan peran dan prioritas yang berbeda dalam bisnis.

Apa itu manajemen masalah?

Manajemen masalah dimaksudkan untuk mencegah insiden terulang kembali dengan mengatasi akar masalah. Hal ini secara logis mengikuti manajemen insiden, terutama jika insiden tersebut telah terjadi beberapa kali dan kemungkinan besar harus didiagnosis sebagai masalah atau kesalahan yang diketahui.

Manajemen insiden tanpa manajemen masalah hanya mengatasi gejala dan bukan akar masalah (yaitu, penyebab yang mendasarinya), yang mengarah pada kemungkinan bahwa insiden serupa akan terjadi di masa mendatang. Manajemen masalah yang efektif mengidentifikasi solusi permanen untuk masalah, sehingga mengurangi jumlah insiden yang harus dikelola oleh organisasi di masa mendatang.

Tim manajemen masalah dapat menerapkan manajemen masalah yang reaktif atau proaktif, bergantung pada insiden yang mereka amati dan data historis yang mereka miliki.

Perbedaan antara manajemen insiden dan manajemen masalah

Ada satu perbedaan utama yang perlu dipertimbangkan ketika mengamati insiden versus masalah: tujuan jangka pendek versus jangka panjang.

Manajemen insiden lebih berkaitan dengan intervensi terhadap suatu contoh masalah dengan tujuan untuk mengembalikan layanan tersebut kembali online tanpa menyebabkan masalah tambahan. Ini adalah alat jangka pendek untuk menjaga layanan tetap berjalan pada saat itu.

Manajemen masalah lebih berfokus pada respons jangka panjang, menangani setiap potensi penyebab yang mendasari sebagai bagian dari potensi masalah yang lebih besar (yaitu masalah).

Bagaimana manajemen insiden dan manajemen masalah dapat bekerja bersama?

Organisasi berusaha menjaga infrastruktur TI mereka agar selalu memiliki performa baik menggunakan manajemen layanan TI (ITSM) untuk mengatur implementasi, pengiriman, dan manajemen layanan yang memenuhi kebutuhan pengguna akhir. ITSM bertujuan untuk meminimalkan waktu henti yang tidak terjadwal dan memastikan bahwa setiap Sumber daya berfungsi sebagaimana dimaksudkan untuk setiap pengguna akhir.

Masalah pasti akan muncul, terlepas dari berapa besar upaya yang dilakukan organisasi untuk meningkatkan ITSM mereka. Kemampuan organisasi untuk menangani dan memperbaiki masalah yang tidak terduga sebelum berubah menjadi masalah yang lebih besar dapat menjadi keunggulan kompetitif yang besar. Layanan TI yang rusak satu kali dapat dianggap sebagai insiden.

Sebagai contoh, terlalu banyak orang mencoba mengakses server bisa menyebabkan server mengalami crash, sehingga menimbulkan insiden yang perlu diperbaiki oleh organisasi Anda. Manajemen insiden berkaitan dengan memperbaiki masalah tertentu yang memengaruhi pengguna Anda secepat dan secermat mungkin. Dalam kasus ini, manajer insiden dapat menghubungi karyawan organisasi dan meminta mereka untuk keluar dari program sementara organisasi menyelesaikan masalah.

Manajemen insiden dan manajemen masalah keduanya diatur oleh Information Technology Infrastructure Library (ITIL), kerangka kerja yang diadopsi secara luas untuk menerapkan dan mendokumentasikan kedua pendekatan manajemen ini. ITIL menciptakan struktur untuk merespons insiden saat terjadi secara reaktif. Rilis terbaru pada saat penulisan adalah ITIL 4.

ITIL menyediakan perpustakaan praktik terbaik untuk mengelola aset TI dan meningkatkan dukungan TI dan tingkat layanan. Proses ITIL menghubungkan layanan TI dengan operasi bisnis sehingga dapat berubah ketika tujuan bisnis berubah. 

Komponen utama ITIL adalah basis data manajemen konfigurasi (CMDB), yang melacak dan mengelola ketergantungan antara semua perangkat lunak, komponen TI, dokumen, pengguna, dan perangkat keras yang diperlukan untuk memberikan layanan TI. ITIL juga menciptakan perbedaan antara manajemen insiden dan manajemen masalah.

Server yang terus-menerus mengalami crash dapat menjadi tanda masalah sistematis yang lebih besar, seperti kegagalan perangkat keras atau kesalahan konfigurasi. Crash mungkin berlanjut jika tim layanan TI gagal menemukan akar masalah dan memetakan solusi untuk masalah yang mendasarinya. Dalam kasus ini, mungkin diperlukan eskalasi ke manajemen masalah, yang berkaitan dengan memperbaiki insiden yang berulang.

Manajemen masalah menyediakan analisis akar masalah untuk masalah dan solusi yang direkomendasikan, yang mengidentifikasi sumber daya yang diperlukan untuk mencegahnya terjadi lagi.

Komponen utama manajemen insiden dan masalah

Manajemen insiden dan masalah yang efektif mencakup alur kerja yang membutuhkan pemantauan real-time, otomatisasi, dan pekerja khusus yang berkoordinasi untuk menyelesaikan masalah secepat mungkin untuk menghindari waktu henti yang tidak perlu atau gangguan bisnis. Kedua bentuk manajemen memiliki beberapa komponen yang berulang yang harus diketahui organisasi.

Manajemen insiden

  • Identifikasi insiden: Untuk menyelesaikan suatu insiden, Anda harus mengamatinya terlebih dahulu. Organisasi semakin banyak mengotomatiskan sistem untuk mendeteksi dan mengirim pemberitahuan ketika insiden terjadi. Tetapi banyak juga yang membutuhkan manusia untuk memastikan bahwa sebuah insiden sedang terjadi, menentukan apakah insiden tersebut memerlukan intervensi dan mengonfirmasi pendekatan yang benar. Misalnya, crash server adalah insiden umum pada organisasi yang mengutamakan sistem digital. Ketika server offline, alat otomatis atau karyawan dapat mengidentifikasi insiden tersebut, dan memulai proses manajemen insiden.
  • Pelaporan insiden: Ini adalah proses formal untuk membuat katalog catatan insiden yang diamati oleh mesin atau manusia. Pelaporan insiden termasuk pencatatan insiden, proses di mana individu atau sistem menugaskan responden untuk masalah tersebut, mengategorikan insiden, dan mengidentifikasi unit bisnis yang terkena dampak dan tanggal penyelesaian.
  • Prioritas penyelesaian insiden: Dalam organisasi modern, perangkat lunak dan layanan TI sering kali saling bergantung, sehingga satu insiden bisa berdampak pada layanan lainnya. Terkadang sebuah insiden terjadi sebagai bagian dari kegagalan sistematis yang lebih besar, yang dapat memicu bencana berantai. Misalnya, jika beberapa server mengalami crash, tim analisis bisnis mungkin tidak dapat mengakses data yang mereka butuhkan, atau pekerja pengetahuan perusahaan mungkin tidak dapat masuk dan mengakses perangkat lunak untuk pekerjaan mereka. Atau, jika API perusahaan gagal, pelanggan organisasi mungkin tidak dapat mengakses informasi yang mereka butuhkan untuk melayani pengguna akhir mereka. Dalam kedua situasi tersebut, tim tanggap darurat harus menilai seluruh lingkup masalah dan memprioritaskan insiden mana yang harus diselesaikan untuk meminimalkan dampak jangka pendek dan jangka panjang terhadap bisnis. Mereka dapat memprioritaskan berdasarkan insiden mana yang memiliki dampak terbesar pada organisasi.
  • Respons dan penanggulangan insiden: Tim respons—yang mungkin dibantu oleh perangkat lunak atau sistem otomatis—kemudian terlibat dalam pemecahan masalah insiden untuk meminimalkan gangguan bisnis. Tim tanggap darurat biasanya terdiri dari anggota tim TI internal, penyedia layanan eksternal, dan staf operasi, sesuai kebutuhan.
  • Resolusi insiden: Sangat penting bagi operasi TI untuk kembali ke layanan normal. Resolusi potensial untuk insiden TI termasuk mematikan server yang tidak berfungsi dengan benar, membuat tambalan, membuat solusi, atau mengganti perangkat keras.
  • Dokumentasi dan komunikasi insiden: Ini adalah langkah penting dalam siklus hidup insiden untuk membantu menghindari insiden pada masa mendatang. Banyak perusahaan membuat basis pengetahuan untuk laporan insiden mereka di mana karyawan dapat mencari untuk membantu mereka menyelesaikan insiden yang mungkin terjadi pada masa lalu. Selain itu, karyawan baru dapat belajar tentang insiden apa saja yang baru-baru ini dihadapi perusahaan dan solusi yang diterapkan, sehingga mereka dapat lebih siap membantu pada insiden berikutnya. Dokumentasi juga penting untuk menentukan apakah suatu masalah berulang dan menjadi masalah, meningkatkan kebutuhan untuk manajemen masalah.

Manajemen masalah

  • Penilaian masalah: Organisasi sekarang harus menentukan apakah insiden tersebut harus dikategorikan sebagai catatan masalah atau hanya insiden yang tidak terkait. Catatan masalah berarti bahwa sekarang menjadi bagian dari manajemen masalah.
  • Pencatatan dan kategorisasi masalah: Tim TI sekarang harus mencatat masalah yang teridentifikasi dan melacak setiap kejadian.
  • Analisis akar masalah: Organisasi harus mempelajari isu-isu mendasar di balik masalah ini dan memetakan jalan untuk menciptakan solusi jangka panjang. Salah satu cara untuk mencapai hal ini adalah dengan mengajukan pertanyaan "bagaimana" secara berulang pada setiap langkah hingga seseorang dapat mengidentifikasi masalah sebenarnya.
  • Pemecahan masalah: Tim TI yang memahami masalah dan akar penyebabnya kini dapat menyelesaikan masalah. Mungkin diperlukan respons cepat atau lebih lama, bergantung pada tingkat keparahan atau kompleksitas masalah.
  • Postmortem: Postmortem di mana karyawan yang relevan mendiskusikan insiden, akar penyebab dan respons terhadap masalah adalah komponen penting dari setiap organisasi transparan yang tertarik untuk mempertahankan waktu aktif dan memberikan layanan terbaik kepada pelanggan. Postmortem memberikan kesempatan kepada semua orang untuk mendiskusikan bagaimana cara memperbaiki diri tanpa menghakimi karyawan atau menyalahkan karyawan atas masalah apa pun. Tujuan postmortem adalah untuk mengetahui apa yang terjadi dan untuk menentukan tindakan untuk meningkatkan organisasi. Postmortem juga dapat memberikan insight tentang bagaimana tim dapat merespons insiden di masa mendatang dengan lebih baik. Langkah ini dapat mengidentifikasi apakah sebuah organisasi memerlukan manajemen perubahan untuk merevitalisasi dan merampingkan manajemen insiden dan masalahnya. Ide terbaik dan hasil terbaik berasal dari pertemuan postmortem yang terbuka dan jujur. Budaya tim harus meyakinkan semua anggota bahwa ini adalah cara untuk menemukan bagaimana tim dapat meningkatkan layanan TI dan bukan cara untuk mencari orang yang harus disalahkan. Tim akan segera memahami apakah ini merupakan praktik yang jujur dan suportif atau tidak.

Indikator kinerja utama manajemen insiden dan masalah

Organisasi sering kali menilai manajer insiden dan proses manajemen insiden berdasarkan beberapa indikator kinerja utama (KPI):

  • Waktu rata-rata untuk mengambil tindakan: Insiden memerlukan deteksi, respons, dan perbaikan. Organisasi menilai kesehatan layanan manajemen insiden mereka dengan waktu rata-rata untuk memperingatkan atau mengakui (MTTA) dan waktu rata-rata untuk merespons dan waktu rata-rata untuk memperbaiki (MTTR), yang semuanya memberikan gambaran yang jelas tentang bagaimana organisasi dapat merespons insiden.
  • Rata-rata waktu antara kegagalan (MTBF): Waktu antara insiden untuk setiap layanan TI. MTBF, yang terjadi lebih sering dari yang diharapkan, mungkin menandakan masalah yang lebih besar yang membutuhkan sikap yang lebih proaktif.
  • Waktu aktif: waktu aktif layanan Anda tersedia dan berfungsi sebagaimana dimaksud. Waktu aktif yang terlalu sedikit dapat membuat organisasi berisiko melanggar SLA dengan pengguna akhir dan kehilangan bisnis ke pesaing.
  • Insiden dan masalah yang dilaporkan: Jumlah insiden yang telah dilaporkan oleh manajer insiden dalam jangka waktu tertentu. Meningkatnya insiden yang dilaporkan mungkin merupakan tanda masalah yang lebih besar.

Manfaat manajemen insiden dan manajemen masalah

Perusahaan dengan rencana manajemen masalah dan insiden yang komprehensif dapat dengan cepat merespons insiden dan mengungguli pesaing mereka. Berikut ini adalah beberapa manfaat:

  • Meningkatkan kepuasan dan loyalitas pelanggan: Pelanggan berharap bahwa layanan dan produk yang mereka bayar akan berfungsi kapan pun dibutuhkan. Semakin banyak produk yang merupakan perangkat lunak (atau terhubung ke perangkat lunak, seperti perangkat cerdas). Crash yang terjadi pada server perusahaan pembuat bel pintu cerdas dapat menyebabkan orang tidak dapat masuk ke rumah atau apartemen mereka. Situs web pemesanan hotel yang mengalami masalah kesalahan DNS akan kehilangan pendapatan pada hari itu dan berpotensi kehilangan pelanggan setia karena beralih ke pesaing. Dampak dari insiden dan masalah dapat membebani organisasi. Perusahaan yang merespons insiden lebih cepat dan meminimalkan waktu henti akan mendapatkan kesetiaan pelanggan yang kemungkinan besar akan berpindah ke penyedia lain jika mereka tidak puas. Strategi manajemen insiden yang andal dapat menghemat uang perusahaan dengan mengurangi waktu henti dan kemungkinan pelanggan atau karyawan pergi, yang keduanya terkait dengan biaya keras.
  • Peningkatan kepuasan karyawan: Insiden TI yang parah memengaruhi karyawan dan juga pelanggan. Karyawan yang tidak dapat mengakses perangkat lunak bisnis penting tidak dapat melakukan pekerjaan mereka. Pekerjaan mereka menumpuk ketika perusahaan mencoba mengembalikan semuanya secara online. Mereka mungkin harus bekerja lembur atau selama akhir pekan untuk mengejar ketinggalan, menciptakan stres, dan mengancam moral mereka.
  • Memenuhi persyaratan SLA: Organisasi memerinci ekspektasi pelanggan untuk produk dan layanan mereka dalam SLA. Organisasi mungkin berisiko terkena tindakan hukum jika mereka gagal memenuhi persyaratan layanan dalam SLA mereka dan berpotensi kehilangan pelanggan ke pesaing.

