🎙 Episodio 30. Todo lo que siempre quisiste saber sobre la nube

En el episodio de hoy de Un podcast ninja sobre Big Data vamos a hablar de la nube ☁️

Hoy hablamos sobre esa nube en la que guardamos nuestras fotos, nuestros archivos y en la que se ejecutan muchas de las aplicaciones que utilizamos cada día.

Y que realmente no tenemos muy claro ni donde está ni en qué consiste.

Porque…

¿Dónde están guardadas realmente todas esas cosas?

Y lo que es aún más importante…

¿Por qué se llama "nube"?

Pues bien, la nube no es más que utilizar ordenadores de otros.

Es decir, en vez de guardar tus propias fotos en el disco duro de tu ordenador o en un disco duro externo pues las guardas en Google fotos, iCloud o en cualquier proveedor y ya que ellos se encarguen.

Con eso nos quitamos de encima los problemas de que la memoria del móvil está hasta arriba, de descargar las fotos en el ordenador, de perder datos si se rompe el ordenador o de saber dónde tenemos qué foto o documento…

Creo que casi todos hemos debido de pasar por este tipo de situaciones alguna vez en nuestra vida ¿no?

Y eso solo con el almacenamiento porque lo mismo pasa con la capacidad de procesamiento del ordenador/móvil/dispositivo genérico…

Llega un momento en el que te quieres instalar un programa o app concreta que resulta que hace que tu ordenador/móvil/dispositivo vaya a pedales y ya está, ha llegado de nuevo el momento de comprar uno nuevo más potente.

Pues estos problemas por los que hemos pasado todos o casi todos con nuestros dispositivos personales también les ocurrían y siguen ocurriendo a las empresas.

Muchas empresas necesitan almacenar archivos del tipo que sea y procesarlos para ofrecer sus servicios y para ello, históricamente tenían su sala llena de servidores o datacenter.

En esos servidores tienen sus ficheros guardados y es donde ejecutan las aplicaciones o lo que sea que tienen que ejecutar proporcionar su servicio a sus clientes o para su funcionamiento interno.

Problemas de los centros de datos locales

Y entonces tienen que tener cuenta varias cosas que les complican la vida:

Qué pasa cuando se llenan los servidores y necesitan más capacidad de almacenamiento.
Qué pasa cuando sus servidores se les quedan anticuados y tienen que actualizarlos
Qué pasa si no han estimado bien la capacidad de almacenamiento o de cálculo de sus servidores para las cosas que tienen que hacer para funcionar bien
1. Puede ser que hayan tirado por lo alto y hayan comprado un equipamiento demasiado bueno para lo que realmente necesitan. Esto implica que están tirando un dinero que igual estaba mejor empleado en otra cosa.
2. Puede ser que se hayan quedado cortos, lo cual implica que no van a poder funcionar tal y cómo los habían pensado.
O qué pasa si tienen servidores que se estropean y dejan de funcionar y la consecuente pérdida de información
O *apocalipsis*, hay un incendio en el datacenter.

Normalmente hay un equipo de administración de sistemas encargado de lidiar con estas situaciones y de tener el datacenter y toda la infraestructura informática actualizada, protegida, bien mantenida y funcionando a pleno rendimiento.

Otra alternativa es usar la filosofía de:

"Mejor, todo esto, que lo haga otro."

Antes de entrar en eso vamos a complicar aún más la situación añadiendo un poco de Big Data a la receta.

Big Data en datacenters locales

Imaginad que estamos ante una empresa que utiliza Big Data.

Para funcionar tiene que almacenar y procesar volúmenes de datos tan grandes de una manera lo suficientemente eficiente como para necesitar varios servidores para llevar a cabo cada una de sus tareas.

Sencillamente no le caben los datos en un único servidor.

Ni aún poniendo un data center con los servidores tope de gama podría ejecutar cada tarea en un solo servidor.

Computación y almacenamiento distribuidos

Hace falta poner en práctica modelos de almacenamiento de datos y computación distribuida.

Es decir, tenemos nuestro conjunto de datos repartido en varios discos y luego vamos a realizar la computación en varios servidores o clúster de computación.

Para ello hay que tener en cuenta que necesitamos que haya un poco de organización lo que supone la carga adicional de procesamiento dedicada a saber qué nodo del cluster está haciendo qué cosa y con qué datos.

Así que recapitulando…

Tenemos un volumen suficiente de datos como para no poder procesarlo entero en un solo sitio así que repartimos los datos en varios discos en nuestro data center.

Cada servidor/nodo del clúster ejecuta en paralelo al resto de servidores la tarea que necesitamos sobre una porción de los datos .

Tenemos un nodo jefe o máster que va organizando un poco el cotarro para poder unir los resultados parciales, que no perdamos datos y que todo esto tenga sentido.

Todo esto es la base del ecosistema Hadoop para poder hacer cosas de manera distribuida.

Ya que en Big Data hay tantos datos que todo hay que hacerlo de manera distribuida.

El almacenamiento en un sistema distribuido: Esto incluye almacenes de datos, bases de datos, lagos de datos… Todo distribuido.
El procesamiento es distribuido: En varios servidores que conforman un clúster de procesamiento distribuido

El que todo se haga de manera distribuida tiene la pega, como decía, de que necesitamos un director de orquesta que ponga un poco de orden. Necesitamos orquestar el clúster y esto, es una capa adicional de complejidad.

Así que por si no fuera lo suficientemente complicado mantener los datacenters de una empresa cualquiera a punto cuando solo se encargan de almacenar y ejecutar unos cuantos servicios, imaginad el tema cuando encima nos encontramos en sistemas de Big Data.

Mucho más práctico subcontratar la gestión de los clústers a una empresa externa y ésta es la que se encarga de adquirir, mantener y gestionar el clúster para montar la infraestructura de Big Data.

Que necesitamos más capacidad de almacenamiento, ellos se encargan.

Que necesitamos más servidores en nuestro clúster, también se encargan.

Que necesitamos menos nodos en el clúster, pues lo hacen ellos y así no tenemos servidores comprados sin utilizar. Cuando ya no los necesitamos nos los desasignan y ya no pagamos por ellos.

Y así las empresas se pueden centrar en el core de su negocio, sea cual sea, en lugar de en administrar un centro de datos que cada vez se va haciendo más complejo y costoso.

Además, las empresas más pequeñas que ni siquiera podían plantearse el coste de tener un equipo de sistemas que gestionara los clústeres y almacenes de datos o el propio coste del equipamiento necesario para plantear estrategias de Big Data pues pueden acceder a ello gracias a los proveedores de computación en la nube.

Ventajas de la nube

Más o menos podéis entrever las ventajas de la nube con lo que os he estado contando pero vamos a ir un paso más allá para no dejarnos ninguna atrás.

Escalabilidad: En un centro de datos cuando necesitamos hacer crecer nuestra capacidad tenemos que comprar más equipamiento, una vez que escalamos es complicado volver a donde estábamos antes porque el equipamiento ya está comprado. Por otro lado, al utilizar la nube es posible pagar por lo que usamos en cada momento sea más o menos.
Mantenimiento: Un centro de datos necesita mantenimiento. Los servidores ocupan un espacio y consumen energía además de que necesitan unas condiciones de refrigeración. Sin embargo, al utilizar la nube no hay que ocuparse de nada de eso… Ya se encarga Google de poner sus centros de datos en el polo norte si hace falta.
Coste: En un centro de datos local necesitamos sumar el equipo de personas necesario para realizar el mantenimiento tanto hardware como software de nuestro centro de datos. Sin embargo, en la nube, son los proveedores los que se encargan de todo esto.

¿Y quiénes son los proveedores de computación en la nube?

Proveedores de computación en la nube

Pues los principales del mercado son Google con Google Cloud Platform, Amazon con Amazon Web Services y Microsoft con Azure.

A principios de 2022:

AWS se llevaba el 34% del mercado siendo el proveedor principal
Seguido por Azure con el 21%
Después Google con el 10% del mercado.

Después, con porcentajes más pequeños, están otros proveedores como Alibaba Cloud, de los creadores de Aliexpress, IBM Cloud o Salesforce.

Pero me voy a centrar en los tres mayoritarios y más en concretos en AWS que es dónde surgió todo.

Nacimiento de AWS

Y surgió casi de casualidad.

No hubo ningún momento mágico en el que Bezos mirara a Andy Jassy, su mano derecha a principio de siglo y a ctual CEO de Amazon, y se les iluminara la bombilla pasando de ser un portal de venta de libros en línea a liderar un mercado tecnológico de miles de millones de dólares.

Amazon Web Services no fue la idea de una sola persona.

No le cayó a nadie una manzana sobre la cabeza tipo Newton, ni se encerraron en una sala para tener la idea que les hiciera crear AWS.

La idea surgió orgánicamente de las frustracioes de la empresa.

Por ejemplo, Bezos y Jassy pasaban mucho tiempo examinando qué iba bien en Amazon y qué iba menos bien.

Por aquel entonces tenían su programa de afiliados funcionando y se encontraron con un problema en particular.

Amazon no era capaz de pronosticar con precisión el tiempo que tardaba en finalizar los proyectos porque dedicaban demasiado tiempo a construir la misma infraestructura antigua (bases de datos, almacenamiento y todas esas cosas que os he comentado antes) una y otra vez.

Necesitaban ser capaces de tener una infraestructura en la que se pudiera confiar y que fuera capaz de escalar con el crecimiento de la plataforma.

Además, escuchaban a sus socios externos quejarse todo el rato de lo caro y dificil de manejar que era el almacenamiento de datos. Había que estar muy pendiente y las actualizaciones eran super costosas.

Las empresas querían funcionar a nivel global en internet, recordad que estamos a principios de los años 2000, y para poner en marcha bases de datos de usuarios enormes y ser capaces de interactuar con ellas en tiempo real o casi había que gastarse un pastizal en servidores.

Por aquel entonces, junto con Google y Yahoo, Amazon fue una de las primeras empresas del mundo en operar a escala global, por lo que este era un proceso de desarrollo que ellos conocían bien.

Cuando Bezos y Jassy meditaban sobre lo que Amazon estaba haciendo bien, la creación de buenos servicios de infraestructura estaba arriba del todo de la lista de inmediato.

Tenían centros de datos rentables, escalables y confiables para hacer crecer el negocio minorista de Amazon de la manera que ellos mismos necesitaban.

Algunas cosas habían crecido demasiado rápido y estaban un poco enredadas pero fueron capaces de desacoplar estas partes enredadas de la plataforma y decidieron ofrecer un servicio de almacenamiento, una solución de procesamiento y una solución de bases de datos en una plataforma completa desde el principio.

En marzo de 2006, se lanzó AWS.

Y hasta hoy. Años más tarde, Google y Microsoft decidieron hacer lo propio. Ofreciendo unas plataformas que resuelven sus propios problemas en su negocio original, en el caso de Amazon como marketplace global o en el de Google a la hora de rastrear, indexar y ser capaz de buscar en toda la web.

Espero que os guste el episodio.

Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.