Cualquiera que haya trabajado incluso mínimamente con código (aunque solo sea con HTML), sabe los desastres que puede causar un error tipográfico, ya sea poner una coma donde no es, olvidarse de cerrar unas comillas o escribir mal una instrucción. Pues eso es lo que pasó cuando hace unas semanas muchos sitios web albergados en Amazon quedaron inaccesibles.
Y tengamos en cuenta algo: cuando decimos «muchos» estamos hablando de decenas de miles de sitios y servicios caídos o con fallas como que las imágenes no se mostraban o los enlaces no funcionaban, entre otras cosas. Esta «caída del sistema» duró alrededor de 5 horas y entre los sitios afectados estuvieron lugares tan populares como Quora, Slack, Medium, Giphy, Trello, Soundcloud o IFTTT.
Pero, ¿qué fue lo que pasó exactamente? Pues que en Amazon Simple Storage Service (S3) estaban haciendo algo de mantenimiento y se les fue la mano. Al parecer, estaban depurando el sistema de facturación y, para ello, era necesario desconectar unos pocos servidores. Así que, al ir a hacerlo, se introdujo mal un comando en la consola y esto hizo que se viniesen abajo más servidores de los planeados, los cuales además soportaban otros sistemas. De esta forma, gran parte de Internet se cayó cual fichas de dominó empujándose unas a otras.
Así lo describieron desde Amazon: «Desafortunadamente, una de las órdenes de entrada se tecleó incorrectamente y cayó un conjunto mayor de servidores del que se pensaba. Los que se tiraron sin querer soportaban otros dos sistemas de S3». La caída fue tan extensa que hasta el servicio que informa del estado de AWS (AWS Service Health Dashboard) también fue noqueado y la compañía tuvo que mantener actualizados a los clientes a través de Twitter.
A continuación, el siguiente paso a tomar ante semejante «trompazo» (porque «caída» suena muy ligero en este caso) fue reiniciar los servidores, algo que tomó mucho más tiempo del esperado debido a que algunos no se habían reiniciado en muchos años. Y es que desde que el sistema de S3 experimentó un crecimiento masivo a lo largo de los últimos años, según dicen desde Amazon «el proceso de reiniciar estos servicios y correr las necesarias pruebas de seguridad para validar la integridad de los metadatos tomó más de lo esperado». Es decir, que fue un desastre en toda regla.
La compañía de Jeff Bezos asegura haber hecho varios cambios como resultado de este incidente. Entre ellos se incluyen pasos para prevenir la introducción de comandos que puedan causar algo parecido a lo que ocurrió y cambios en la consola de administración en el AWS Service Health Dashboard para que pueda ejecutarse a través de múltiples regiones.
Así que la próxima vez que, por la razón que sea, cometas un error al teclear un código, no seas muy duro contigo mismo: seguro que el efecto que causes no será tan tremendo como lo que les pasó a Amazon. Y además, como acabamos de ver, «cualquier escriba echa un borrón», y al hacerlo, también echa de Internet a una gran cantidad de sus sitios más populares.