Un error de software no descubierto causa la caída global de Fastly

Nick Rockwell, vicepresidente senior de Ingeniería e Infraestructura en Fastly, ha anunciado que la interrupción global  sufrida el Martes 8 de junio ha sido a causa de un error de software no descubierto.

El problema, que ha dejado a medio mundo sin servicios de Internet, fue “provocado por un cambio de configuración válido del cliente”. Rockwell ha informado que la interrupción ha sido detectada en un minuto, por lo que identificaron y aislaron la causa, al tiempo que deshabilitaron la configuración.

Aunque en 49 minutos la red funcionaba con normalidad en 95 %, la interrupción ha sido calificada como amplia y grave. El ejecutivo de la compañía que brinda una gran Red de Distribución de Contenidos (CDN) ha lamentado el impacto para sus clientes y todas las empresas, organizaciones o personas que dependen de ellos.

También ha aprovechado para explicar que el pasado 12 de mayo comenzaron una implementación de software que introdujo un error que podría desencadenarse por una configuración específica del cliente, en circunstancias específicas.

“A principios del 8 de junio, un cliente impulsó un cambio de configuración válido que incluía las circunstancias específicas que desencadenaron el error, que provocó que el 85 % de nuestra red devolviera errores”.

Una vez que se mitigaron los efectos inmediatos, el equipo de Fastly centró su atención en corregir el error y comunicarse con sus clientes. Fue así como creó una solución permanente para el error y comenzó a implementarlo.

Acciones a corto plazo

Rockwell ha adelantado que siguen implementando la corrección de errores en la red, de la manera más rápida y segura posible. Igualmente, realizan una autopsia completa de los procesos y prácticas que han seguido durante este incidente.

“Descubriremos por qué no detectamos el error durante nuestros procesos de control de calidad y prueba de software. Evaluaremos formas de mejorar nuestro tiempo de remediación”.

Además, ha resaltado que en la compañía continúan innovando e invirtiendo en cambios fundamentales para la seguridad de sus plataformas subyacentes. Esto significaría “aprovechar al máximo las capacidades de aislamiento de WebAssembly y Compute@Edge” para desarrollar una mayor capacidad de recuperación desde cero.

Ha prometido que continuarán actualizando la comunidad a medida que avancen hacia ese objetivo. “Aunque hubo condiciones específicas que desencadenaron esta interrupción, deberíamos haberlo anticipado. Brindamos servicios de misión crítica y tratamos cualquier acción que pueda causar problemas de servicio con la máxima sensibilidad y prioridad”.

La caída de Fastly

Una buena parte del mundo ha sufrido las consecuencias de la caída de los servicios de este proveedor estadounidense de computación en la nube. Los portales de Financial Times, The Guardian, The New York Times, El Periódico y El Mundo han sido parte de los perjudicados.

Algunos de los afectados lograron restablecer sus servicios en pocos minutos, pero a otros les ha costado un poco más de tiempo, según los reportes publicados desde las compañías.

Plataformas de streaming como Spotify, Twitch y Jwplayer también han sido afectadas por la interrupción de Fastly, además del sitio oficial del Gobierno británico y algunos servicios de Amazon.

Este incidente ha afectado a clientes de Asia / Pacífico, Dubai, Hong Kong, Singapur, Sydney, Tokio, América del Sur, América del Norte, Sudáfrica, India y Europa (Ámsterdam, Copenhague, Dublín, Fráncfort, Helsinki, Londres, Madrid, París, Estocolmo, Viena, Múnich, entre otros).

Y es que se trata de una red de plataformas de nube de borde diseñada para ayudar a los desarrolladores a extender su infraestructura de nube central al borde de la red, lo que permite estar más cerca de los usuarios.

Una buena parte de los medios a escala global usa los servicios de Fastly y, por eso, el impacto del incidente ha tenido consecuencias notables en todo el mundo.