Quizá llegaste a experimentar o simplemente te enteraste que el pasado martes 28 de febrero Internet registró uno de esos grandes fallos que terminó afectando gran parte de las webs, servicios y aplicaciones que usamos diariamente.Según indican esto se debió a una caída del servicio S3 (Simple Storage Service) de Amazon Web Services (AWS), uno de los servidores más grandes de Internet y en el cual grandes compañías como Hootsuite, Twitch, Airbnb, Giphy, Trello, IFTTT, y otras más están alojadas.
Dicha afectación llego a durar casi 5 horas; y hasta hoy después de 48 horas de lo sucedido Amazon nos informa qué fue lo que pasó. La compañía está publicando un informe donde explica el origen del fallo, donde se confirma que no fue un ataque como muchos pensaban, sino un «simple» error humano.
COMO FUE QUE PASO ESTO???
Según el informe todo comenzó cuando la mañana del martes algunos miembros del equipo de Amazon S3 estaban depurando el sistema de facturación, lo que consistía en apagar algunos servidores. Un miembro autorizado del equipo ejecutó un comando de acuerdo a lo establecido en el manual, desafortunadamente, una de las entradas del comando se ingresó de forma errónea y terminó deshabilitando un conjunto de servidores más grande de lo previsto.
De entre los servidores que se dejaron offline se encontraban dos importantes subsistemas que dan soporte a S3, uno de ellos es responsable de gestionar los meta-datos y la información de localización de todos los objetos S3 de la región. Subsistema que al no estar operativo no se podían realizar tareas básicas de recuperación y almacenamiento de datos.
Al descubrirse el error, el siguiente paso era reiniciar todo el sistema, algo que tomó más tiempo del esperado. Mientras ocurría todo esto, otros sistemas web de AWS dejaron de funcionar, como Elastic Compute Cloud (EC2) que es usado para que las compañías amplíen su almacenamiento en la nube. Y es que la mala noticia es que muchos de los propios servicios de AWS están enlazados a los servicios S3, como el dashboard, que durante el fallo mostraba que todos los servicios estaban funcionando bien, cuando era claro que no era así.
Según Amazon, el reinicio tardó mucho más de lo que se esperaba debido a que muchos de los servidores nunca habían sido reiniciados, y a pesar de que S3 está diseñado para trabajar con la pérdida de algunos servidores, la caída de los subsistemas afectó el desempeño de forma importante. La compañía asegura que este error ha servido para ajustar los protocolos y hacer cambios, como una depuración periódica de forma programada; ahora los ingenieros no podrán no tendrán la capacidad de desactivar servidores; y el dashboard será un sistema independiente al S3.
A estas alturas a muchos solo les interesa el saber cual fue el destino que le espero a este ingeniero, o bien como se encuentra el restante del equipo de Amazon; ya que es obvio que fue un fallo de gran magnitud, pero al final hizo todo lo que estaba en el manual, asi como la empresa al tomar la mejor decisión.
Y lo que es importante destacar, es que en plena época de inteligencia artificial, robots y tecnología, la red sigue siendo frágil y más cuando existen fallos humanos.