Para un geek no hay nada peor que no poder conectarse a su servicio favorito en la nube. O para un adicto a las redes sociales ver que Instagram o Facebook le devuelven errores cada vez que intenta acceder a su cuenta. O que desaparezca una página web durante horas sin motivo aparente...
Se denomina caída de servicio a cualquier interrupción –causada por un fallo técnico o un ataque cibernético- de la actividad normal de un servicio, aplicación o plataforma en la nube, a las que es imposible conectarse hasta que el error es subsanado. Aunque este tipo de situaciones son muy poco frecuentes (dado el ingente tamaño de Internet), cuando se producen en un servicio de masas el impacto social es inmenso e inmediato, siendo además caldo de cultivo a numerosos bulos y rumores.
Pero, ¿cuáles han sido las caídas de servicio que nos han hecho enfadar en los últimos años? Hemos hecho un repaso por los últimos incidentes de este tipo y hemos seleccionado los fallos que han afectado a los proveedores y empresas más populares de nuestros días.
La red social por excelencia para hipsters de todas las edades y condición (así como adolescentes con ganas de postureo) ha sido una de las más recientes víctimas de las caídas de servicio. Así, el 8 de agosto de 2014, Instagram experimentó errores graves (aunque no han especificado aún cuáles) que impidieron a miles de usuarios de todo el mundo acceder a la app durante al menos dos horas.
Amazon Web Services
Aunque todos conocemos Amazon por su popular tienda de eBooks y por su no menos conocida tienda de tecnología, moda y demás objetos, lo cierto es que esta compañía cuenta con una pata de negocio menos popular pero igualmente lucrativa: Amazon Web Services. AWS (por sus siglas en inglés) es una plataforma cloud que sirve de alojamiento y soporte para construir páginas webs, servidores y demás entornos informáticos para empresas en el entorno de Internet, sin tener que contar con hardware propio en la organización.
Dicho de otro modo: la caída de servicio de AWS implicaría directamente la imposibilidad de acceder a muchas otras webs y aplicaciones que dependen de ella. Y eso es precisamente lo que ocurrió el 22 de octubre de 2012, cuando cientos de webs (como Reedit o Github) se quedaron en negro por una caída de los sistemas de Amazon, con especial incidencia en Latinoamérica.
PlayStation Network
Una de las plataformas que más caídas de servicio ha sufrido a lo largo de su corta existencia es PlayStation Network, el sistema en línea que permite a ‘jugones’ de todo el planeta competir entre sí a través de sus videoconsolas SONY.
Era 2011 y PlayStation Network estaba en su mejor momento, con miles de adeptos jugando a diario a través de su red. Sin embargo, en abril todo comenzó a torcerse: una caída de servicio de más de seis días, que estaba vinculada además a una de las mayores brechas de seguridad de la historia, con millares de datos personales y bancarios robados.
Hace un año, en noviembre de 2013, reaparecían los problemas para PlayStation Network. La aparición de la nueva PlayStation 4 reanimó a la comunidad de esta videoconsola, cuyos usuarios acudieron en masa a PSN para jugar en línea. El servicio no pudo resistir este aumento inesperado de tráfico y sus servidores se vieron colapsados durante prácticamente medio día.
Llegamos así a este pasado mes de octubre de 2014, cuando PSN vivió su último incidente de relevancia. Un ataque de denegación de servicio (DDoS), que se produce cuando un hacker provoca miles de visitas a una determinada web hasta que su ancho de banda no puede soportar tantos accesos y queda fuera de juego, nunca mejor dicho. En este caso, el grupo LizardSquad, vinculado a Anonymous, se atribuyó la autoría de esta fechoría a través de su canal de Twitter.
Aunque como ya vimos en otro post, Facebook cuenta con algunos de los mejores centros de datos del mundo, esto no les hace inmunes a los errores que hacen que su web quede inservible durante demasiado tiempo. En agosto de este mismo año, Facebook estuvo fuera de servicio más de 30 minutos, la caída de servicio más larga que ha vivido esta red social en los últimos cuatro años.
BlackBerry
En su momento, el que no estuviera en BlackBerry Messenger no era nadie: en sus chats se debatían desde los partidos del domingo hasta las grandes conversaciones empresariales del mundo o se gestaban los amores más preciosos de esos años.
Durante la época dorada de BlackBerry, hubo un período negro que muchos asocian incluso al principio del fin de su hegemonía. Fue entre octubre y noviembre de 2011, cuando el popular servicio de mensajería de RIM estuvo sin servicio durante aproximadamente una semana, con pequeños regresos de actividad pero que eran más un oasis en medio del desierto que una vuelta a la normalidad propiamente dicha.
La explicación oficial fue que un servidor de la empresa se saturó y se dio la casualidad de que los sistemas que debían transmitir ese exceso de carga a otros equipos no funcionaron correctamente. Aunque el problema fue subsanado rápidamente, el servicio tardó días en funcionar de forma normal, dado el volumen de mensajes que estaban en cola para ser entregados.
Siguiendo en la colmena de las apps de mensajería instantánea, llegamos a su reina: WhatsApp. La ahora flamante estrella de Facebook ha experimentado varias caídas de servicio a lo largo de su historia, las últimas estos meses de abril, mayo y julio. Pero fue la de febrero la que más daño causó a sus usuarios, con 450 millones de personas prácticamente incomunicadas (al menos a través de esta app).
Esta caída generó además una reacción en cadena. En ese sentido, la segunda app en discordia de este segmento, Telegram, recibió millones de mensajes durante el tiempo en que WhatsApp estuvo inactivo, con casi dos millones de nuevos usuarios registrados. Un incremento inaudito para esta compañía que acabó por desbordar sus sistemas y causar su propio colapso.
Microsoft
Microsoft tampoco se libra de las caídas de servicio, las cuales afectaron por igual a particulares y a clientes corporativos.
Imaginemos que es marzo de 2013 y un usuario quiere acceder a su bandeja de entrada de Hotmail (en aquel momento recién rebautizada como Outlook.com). Enciende el ordenador, teclea el nuevo dominio al que aún se está acostumbrando y, ¡voilà! No funciona. Dejando a un lado la imaginación, lo cierto es que Microsoft reconoció una caída de servicio de correo electrónico y su disco duro online, SkyDrive, que se debió a una mala actualización del firmware de sus servidores que acabó por calentar los equipos hasta el punto de que se activaron los protocolos de seguridad ante una explosión inminente.
En agosto de 2011, Microsoft también sufrió otra incidencia en su servicio Azure, una plataforma similar a Amazon Web Services, que dejó sin servicio miles de aplicaciones de terceros que usaban sus recursos (tales como máquinas virtuales, de back-up o simplemente de páginas web).
Las tecnologías que impedirán que esto vuelva a pasar
Aunque una caída del servicio es complicada de prever y más aún de solventar, sí que es cierto que se puede prevenir en gran forma. En primer lugar, las compañías deben apostar por centros de datos capaces de escalar rápidamente ante picos de tráfico (bien sea con recursos propios o tirando de servicios en la nube).
Por otro lado, las empresas deben contar en todo momento con soluciones que permitan, una vez que el incidente se ha producido, evitar que se pierda información o que los datos se vean dañados como consecuencia de la interrupción del servicio.
Entre estas últimas se encuentran funcionalidades como el Data Recovery as a Service (DRaaS), una herramienta de Telefónica que permite redundar la información en tiempo real de sus usuarios en los distintos centros de datos de la operadora en España, entre ellos el CPD de Alcalá de Henares, el único de España con certificación Tier IV Gold.
Imagne portada: Flickr Sisssou