馃帣 Episodio 30. Todo lo que siempre quisiste saber sobre la nube

En el episodio de hoy de聽Un podcast ninja sobre Big Data聽vamos a hablar de la nube 鈽侊笍

Hoy hablamos sobre esa nube en la que guardamos nuestras fotos, nuestros archivos y en la que se ejecutan muchas de las aplicaciones que utilizamos cada d铆a.

Y que realmente no tenemos muy claro ni donde est谩 ni en qu茅 consiste.

Porque鈥

驴D贸nde est谩n guardadas realmente todas esas cosas?

Y lo que es a煤n m谩s importante鈥β

驴Por qu茅 se llama "nube"?

Pues bien, la nube no es m谩s que utilizar ordenadores de otros.

Es decir, en vez de guardar tus propias fotos en el disco duro de tu ordenador o en un disco duro externo聽pues las guardas en Google fotos, iCloud o en cualquier proveedor y ya que ellos se encarguen.

Con eso nos quitamos de encima los problemas de que la memoria del m贸vil est谩 hasta arriba, de descargar las fotos en el ordenador, de perder datos si se rompe el ordenador o de saber d贸nde tenemos qu茅 foto o documento鈥β

Creo que casi todos hemos debido de pasar por este tipo de situaciones alguna vez en nuestra vida 驴no? 

Y eso solo con el almacenamiento porque lo mismo pasa con la capacidad de procesamiento del ordenador/m贸vil/dispositivo gen茅rico鈥

Llega un momento en el que te quieres instalar un programa o app concreta que resulta que hace que tu ordenador/m贸vil/dispositivo vaya a pedales y ya est谩, ha llegado de nuevo el momento de comprar uno nuevo m谩s potente.

Pues estos problemas por los que hemos pasado todos o casi todos con nuestros dispositivos personales tambi茅n les ocurr铆an y siguen ocurriendo a las empresas.

Muchas empresas necesitan almacenar archivos del tipo que sea y procesarlos para ofrecer sus servicios y para ello, hist贸ricamente ten铆an su sala llena de servidores o datacenter.

En esos servidores tienen sus ficheros guardados y es donde ejecutan las aplicaciones o lo que sea que tienen que ejecutar proporcionar su servicio a sus clientes o para su funcionamiento interno.

Problemas de los centros de datos locales

Y entonces tienen que tener cuenta varias cosas que les complican la vida:

  1. Qu茅 pasa cuando se llenan los servidores y necesitan m谩s capacidad de almacenamiento.
  2. Qu茅 pasa cuando sus servidores se les quedan anticuados y tienen que actualizarlos
  3. Qu茅 pasa si no han estimado bien la capacidad de almacenamiento o de c谩lculo de sus servidores para las cosas que tienen que hacer para funcionar bien
    1. Puede ser que hayan tirado por lo alto y hayan comprado un equipamiento demasiado bueno para lo que realmente necesitan. Esto implica que est谩n tirando un dinero que igual estaba mejor empleado en otra cosa.
    2. Puede ser que se hayan quedado cortos, lo cual implica que no van a poder funcionar tal y c贸mo los hab铆an pensado.
  4. O qu茅 pasa si tienen servidores que se estropean y dejan de funcionar y la consecuente p茅rdida de informaci贸n
  5. O *apocalipsis*, hay un incendio en el datacenter.

Normalmente hay un equipo de administraci贸n de sistemas encargado de lidiar con estas situaciones y de tener el datacenter y toda la infraestructura inform谩tica actualizada, protegida, bien mantenida y funcionando a pleno rendimiento.

Otra alternativa es usar la filosof铆a de:

"Mejor, todo esto, que lo haga otro."

Antes de entrar en eso vamos a complicar a煤n m谩s la situaci贸n a帽adiendo un poco de Big Data a la receta.

Big Data en datacenters locales

Imaginad que estamos ante una empresa que utiliza Big Data.

Para funcionar tiene que almacenar y procesar vol煤menes de datos tan grandes de una manera lo suficientemente eficiente como para necesitar varios servidores para llevar a cabo cada una de sus tareas.

Sencillamente no le caben los datos en un 煤nico servidor.

Ni a煤n poniendo un data center con los servidores tope de gama podr铆a ejecutar cada tarea en un solo servidor.

Computaci贸n y almacenamiento distribuidos

Hace falta poner en pr谩ctica modelos de almacenamiento de datos y computaci贸n distribuida.

Es decir, tenemos nuestro conjunto de datos repartido en varios discos y luego vamos a realizar la computaci贸n en varios servidores o cl煤ster de computaci贸n.

Para ello hay que tener en cuenta que necesitamos que haya un poco de organizaci贸n lo que supone la carga adicional de procesamiento dedicada a saber qu茅 nodo del cluster est谩 haciendo qu茅 cosa y con qu茅 datos.

As铆 que recapitulando鈥

Tenemos un volumen suficiente de datos como para no poder procesarlo entero en un solo sitio as铆 que repartimos los datos en varios discos en nuestro data center.

Cada servidor/nodo del cl煤ster ejecuta en paralelo al resto de servidores la tarea que necesitamos sobre una porci贸n de los datos .

Tenemos un nodo jefe o m谩ster que va organizando un poco el cotarro para poder unir los resultados parciales, que no perdamos datos y que todo esto tenga sentido.

Todo esto es la base del ecosistema Hadoop para poder hacer cosas de manera distribuida.

Ya que en Big Data hay tantos datos que todo hay que hacerlo de manera distribuida.

  • El almacenamiento en un sistema distribuido: Esto incluye almacenes de datos, bases de datos, lagos de datos鈥 Todo distribuido.
  • El procesamiento es distribuido: En varios servidores que conforman un cl煤ster de procesamiento distribuido

El que todo se haga de manera distribuida tiene la pega, como dec铆a, de que necesitamos un director de orquesta que ponga un poco de orden. Necesitamos orquestar el cl煤ster y esto, es una capa adicional de complejidad.

As铆 que por si no fuera lo suficientemente complicado mantener los datacenters de una empresa cualquiera a punto cuando solo se encargan de almacenar y ejecutar unos cuantos servicios, imaginad el tema cuando encima nos encontramos en sistemas de Big Data.

Mucho m谩s pr谩ctico subcontratar la gesti贸n de los cl煤sters a una empresa externa y 茅sta es la que se encarga de adquirir, mantener y gestionar el cl煤ster para montar la infraestructura de Big Data.

Que necesitamos m谩s capacidad de almacenamiento, ellos se encargan.

Que necesitamos m谩s servidores en nuestro cl煤ster, tambi茅n se encargan.

Que necesitamos menos nodos en el cl煤ster, pues lo hacen ellos y as铆 no tenemos servidores comprados sin utilizar. Cuando ya no los necesitamos nos los desasignan y ya no pagamos por ellos.

Y as铆 las empresas se pueden centrar en el core de su negocio, sea cual sea, en lugar de en administrar un centro de datos que cada vez se va haciendo m谩s complejo y costoso.

聽Adem谩s, las empresas m谩s peque帽as que ni siquiera pod铆an plantearse el coste de tener un equipo de sistemas que gestionara los cl煤steres y almacenes de datos o el propio coste del equipamiento necesario para plantear estrategias de Big Data pues pueden acceder a ello gracias a los proveedores de computaci贸n en la nube.

Ventajas de la nube

M谩s o menos pod茅is entrever las ventajas de la nube con lo que os he estado contando pero vamos a ir un paso m谩s all谩 para no dejarnos ninguna atr谩s.

  1. Escalabilidad: En un centro de datos cuando necesitamos hacer crecer nuestra capacidad tenemos que comprar m谩s equipamiento, una vez que escalamos es complicado volver a donde est谩bamos antes porque el equipamiento ya est谩 comprado. Por otro lado, al utilizar la nube es posible pagar por lo que usamos en cada momento sea m谩s o menos.
  2. Mantenimiento: Un centro de datos necesita mantenimiento. Los servidores ocupan un espacio y consumen energ铆a adem谩s de que necesitan unas condiciones de refrigeraci贸n. Sin embargo, al utilizar la nube no hay que ocuparse de nada de eso鈥 Ya se encarga Google de poner sus centros de datos en el polo norte si hace falta.
  3. Coste: En un centro de datos local necesitamos sumar el equipo de personas necesario para realizar el mantenimiento tanto hardware como software de nuestro centro de datos. Sin embargo, en la nube, son los proveedores los que se encargan de todo esto.

驴Y qui茅nes son los proveedores de computaci贸n en la nube?

Proveedores de computaci贸n en la nube

Pues los principales del mercado son Google con Google Cloud Platform, Amazon con Amazon Web Services y Microsoft con Azure.

A principios de 2022:

  • AWS se llevaba el 34% del mercado siendo el proveedor principal
  • Seguido por Azure con el 21%
  • Despu茅s Google con el 10% del mercado.

Despu茅s, con porcentajes m谩s peque帽os, est谩n otros proveedores como Alibaba Cloud, de los creadores de Aliexpress, IBM Cloud o Salesforce.

Pero me voy a centrar en los tres mayoritarios y m谩s en concretos en AWS que es d贸nde surgi贸 todo.

Nacimiento de AWS

Y surgi贸 casi de casualidad.

No hubo ning煤n momento m谩gico en el que Bezos mirara a Andy Jassy, su mano derecha a principio de siglo y a ctual CEO de Amazon, y se les iluminara la bombilla pasando de ser un portal de venta de libros en l铆nea a liderar un mercado tecnol贸gico de miles de millones de d贸lares.

Amazon Web Services no fue la idea de una sola persona.

No le cay贸 a nadie una manzana sobre la cabeza tipo Newton, ni se encerraron en una sala para tener la idea que les hiciera crear AWS.

La idea surgi贸 org谩nicamente de las frustracioes de la empresa.

Por ejemplo, Bezos y Jassy pasaban mucho tiempo examinando qu茅 iba bien en Amazon y qu茅 iba menos bien.

Por aquel entonces ten铆an su programa de afiliados funcionando y se encontraron con un problema en particular.聽

Amazon no era capaz de pronosticar con precisi贸n el tiempo que tardaba en finalizar los proyectos porque dedicaban demasiado tiempo a construir la misma infraestructura antigua (bases de datos, almacenamiento y todas esas cosas que os he comentado antes) una y otra vez.聽

Necesitaban ser capaces de tener una infraestructura en la que se pudiera confiar y que fuera capaz de escalar con el crecimiento de la plataforma.

Adem谩s, escuchaban a sus socios externos quejarse todo el rato de lo caro y dificil de manejar que era el almacenamiento de datos. Hab铆a que estar muy pendiente y las actualizaciones eran super costosas.

Las empresas quer铆an funcionar a nivel global en internet, recordad que estamos a principios de los a帽os 2000, y para poner en marcha bases de datos de usuarios enormes y ser capaces de interactuar con ellas en tiempo real o casi hab铆a que gastarse un pastizal en servidores.聽

Por aquel entonces, junto con Google y Yahoo, Amazon fue una de las primeras empresas del mundo en operar a escala global, por lo que este era un proceso de desarrollo que ellos conoc铆an bien.

Cuando Bezos y Jassy meditaban sobre lo que Amazon estaba haciendo bien, la creaci贸n de buenos servicios de infraestructura estaba arriba del todo de la lista de inmediato.

Ten铆an centros de datos rentables, escalables y confiables para hacer crecer el negocio minorista de Amazon de la manera que ellos mismos necesitaban.

Algunas cosas hab铆an crecido demasiado r谩pido y estaban un poco enredadas pero fueron capaces de desacoplar estas partes enredadas de la plataforma y decidieron ofrecer un servicio de almacenamiento, una soluci贸n de procesamiento y una soluci贸n de bases de datos en una plataforma completa desde el principio.

En marzo de 2006, se lanz贸 AWS.

Y hasta hoy. A帽os m谩s tarde, Google y Microsoft decidieron hacer lo propio. Ofreciendo unas plataformas que resuelven sus propios problemas en su negocio original, en el caso de Amazon como marketplace global o en el de Google a la hora de rastrear, indexar y ser capaz de buscar en toda la web.

Espero que os guste el episodio.

Si es as铆, no olvid茅is dejar un 芦Me gusta禄 y alg煤n comentario al episodio en Ivoox o una valoraci贸n de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuch茅is el podcast. 

Recordad que si ten茅is cualquier duda o pregunta pod茅is contactar conmigo a trav茅s del formulario de contacto o podemos seguir la conversaci贸n en Twitter.

Muchas gracias por estar ah铆 y os espero en el pr贸ximo episodio de Un Podcast Ninja sobre Big Data.

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17鈧/mes (o menos 馃く), obt茅n acceso a todos los tutoriales y res煤menes de los libros m谩s top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.
隆Empieza ahora!
Copyright 漏 2024  路 Datos 馃シ 路 Todos los derechos reservados