
Chief Security Officer GitHub dan SVP of Engineering membagikan lebih banyak detail hari ini tentang serangkaian pemadaman yang melanda platform hosting kode minggu lalu.
Meskipun insiden ini memiliki akar penyebab yang tidak terkait, insiden tersebut memengaruhi sebagian besar layanan utama GitHub dari 9 Mei hingga 11 Mei, menyebabkan koneksi database meluas dan kegagalan autentikasi hingga sepuluh jam.
“Minggu lalu, GitHub mengalami beberapa insiden ketersediaan, baik yang berjalan lama maupun durasi yang lebih pendek. Kami telah memitigasi insiden ini dan semua sistem sekarang beroperasi secara normal,” kata Hanley.
“Akar penyebab insiden ini tidak terkait tetapi secara agregat, mereka berdampak negatif pada layanan yang dipercaya oleh organisasi dan pengembang GitHub. Ini tidak dapat diterima atau standar yang kami pegang sendiri.”
Pada tanggal 9 Mei, delapan layanan utama mengalami pemadaman besar yang disebabkan oleh perubahan konfigurasi pada layanan internal GitHub yang melayani data Git.
Pemadaman kedua, yang terjadi pada 10 Mei, berdampak pada penerbitan token autentikasi untuk Aplikasi GitHub dan diakibatkan oleh beban tinggi dan penerapan API yang tidak efisien yang bertanggung jawab untuk mengelola izin Aplikasi GitHub.
“Pada 10 Mei, klaster database yang melayani token autentikasi Aplikasi GitHub mengalami peningkatan 7x dalam latensi tulis untuk izin Aplikasi GitHub (status kuning),” Hanly menjelaskan.
“Tingkat kegagalan permintaan token autentikasi ini adalah 8-15% untuk sebagian besar insiden ini, tetapi mencapai puncaknya pada 76% persen untuk waktu yang singkat.”
Pemadaman GitHub ketiga yang dialami pengguna minggu lalu, pada 11 Mei, disebabkan hilangnya replika baca setelah kluster database yang menyajikan data Git mogok dan memicu mekanisme failover otomatis.

”Kami sedang menangani crash database Git yang telah menyebabkan lebih dari satu insiden pada saat ini. Pekerjaan ini sudah dalam proses dan kami akan terus memprioritaskannya,” kata Hanley.
“Kami menangani masalah failover database untuk memastikan bahwa failover selalu pulih sepenuhnya tanpa intervensi.”
GitHub akan membagikan informasi lebih rinci tentang pemadaman ini dan apa yang dilakukannya untuk mengatasi masalah yang menyebabkannya pada bulan Mei. Laporan Ketersediaan.
“Laporan bulan Mei akan mencakup insiden ini dan detail lebih lanjut yang kami miliki tentangnya, bersama dengan pembaruan umum tentang kemajuan menuju peningkatan ketersediaan GitHub,” kata Hanley.
GitHub juga terpengaruh oleh beberapa pemadaman dalam seminggu pada Maret 2022, ketika perusahaan mengungkapkan bahwa insiden tersebut disebabkan oleh masalah perebutan sumber daya di kluster database utama platform.
Pemadaman besar lainnya berdampak pada GitHub pada Februari 2022, ketika platform tersebut mengalami down di seluruh dunia, mencegah akses ke situs web dan memblokir upaya komit, kloning, atau permintaan tarik.