Tokopedia membeberkan pentingnya budaya kewaspadaan di sebuah sistem platform. Melalui acara START Summit Extension pada 17 Desember 2020 lalu, tim engineer Tokopedia membagikan praktik bagaimana mereka membangun dan meningkatkan budaya kewaspadaan, terutama dalam menghadapi berbagai insiden.
Tim yang terdiri dari Software Engineer Lead - Purchase Platform Timothy Agustian, Engineering Manager - Order & Campaign Danish Jatmiko, dan Software Engineer Lead - Order Viriya Saddha Pannindriya membagikan tipsnya dalam sesi tema 'High Severity! Behind Tokopedia's Reliable Incident Management'.
Setidaknya ada beberapa tahapan yang bisa diterapkan dalam mengelola sebuah insiden pada suatu platform. Berikut penjelasannya.
Preparation & Monitoring
Tahap pertama ini adalah fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi, tetapi akan sangat berpengaruh terhadap fase berikutnya. Timothy pun mengatakan pada fase ini ada beberapa poin penting, yang pertama adalah melatih anggota agar mengetahui pengetahuan dasar tentang cara use case yang perlu ditangani.
Poin kedua adalah mengumpulkan dan membuat dokumentasi segala informasi yang berkaitan dengan insiden manajemen agar dapat mudah diakses tim lainnya. Pada poin ketiga seorang developer harus memonitor platform untuk membantu mengetahui keadaan server atau bisnis secara real time sehingga dapat mempersiapkan segala kemungkinan.
https://maymovie98.com/movies/skandal-cinta-babi-ngepet/
Alerting
Tahap selanjutnya adalah Alerting, menurut Timothy tahap ini adalah fase pertama yang dilakukan ketika terjadi suatu insiden. Ketika alarm sudah berbunyi, maka itu merupakan tanda terdapat suatu insiden.
"Insiden yang baik adalah jika alertingnya juga baik, sehingga kita dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna, melainkan dapat mengetahuinya terlebih dulu," tutur Timothy dikutip website resmi Tokopedia Minggu (24/1/2021).
Setidaknya ada tiga kriteria yang menunjukkan sebuah alarm bekerja dengan baik, yaitu Escalated Alert yang bisa mengetahui seberapa bahaya insiden tersebut dan seberapa cepat developer bisa menyelesaikannya.
Kedua adalah Informative yaitu ketika tim yang bukan bagian dari tim teknologi dapat mengerti tentang situasi yang terjadi dan yang terakhir adalah to the point yang dapat langsung menjelaskan suatu insiden secara tepat dan akurat.
Timothy menambahkan ada juga poin yang tak kalah pentingnya yaitu Basic Knowledge Alarm yaitu setiap anggota tim punya pengetahuan dasar untuk mendefinisikan masalah dan langsung menentukan langkah yang harus dilakukan. Selain itu ada juga Incident Management Platform yaitu ketika terjadi suatu insiden ada jalur komunikasi yang baik untuk dapat langsung menghubungi pihak-pihak yang berkaitan.
"Apabila tim yang menangani insiden ini tidak available, maka kita dapat dengan mudah melakukan eskalasi ke tim leader, head, dan seterusnya. Dengan platform ini, diharapkan semua stakeholders dapat aware dan sigap dalam menangani insiden," ungkap Timothy.
Triage & Notify
Tahap ketiga dalam mengelola kewaspadaan startup adalah Triage & Notify. Menurut Engineering Manager - Order & Campaign Tokopedia Danish Jatmiko tahapan ini menjelaskan tentang apa yang perlu dilakukan saat sebuah insiden datang. Memang melalui. Alerting & Monitoring, developer dapat mengetahui keadaan atau kesehatan sistem. Namun, apa yang harus dilakukan jika ternyata terjadi suatu insiden terhadap sistem?
Danish mengatakan hal pertama yang perlu dilakukan adalah tidak panik dan mengendalikan serta mengatur situasi yang terjadi. Selanjutnya membaca situasi dan kondisi sistem agar dapat mengenali dan mengidentifikasi masalah yang terjadi.
"Sebagai contoh, ketika traffic sedang mengalami down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau servis lainnya. Dengan Alerting & Monitoring, kita dapat langsung mengetahui penyebabnya serta bagaimana kita dapat mengatasi hal tersebut." ujar Danis.
Tidak ada komentar:
Posting Komentar