Como lo hemos visto en nuestro artículo precedente, las nuevas tecnologías y las nuevas formas de pensar en el dato y su representación han venido a modificar profundamente la arquitectura de los Sistemas de Información.
Las soluciones de integración de datos han pasado del modo hombre orquesta al modo director de orquesta.
.

¿Pero para tocar cuál partitura?
¿La de un cuarteto bien ordenado? ¿O la de una orquesta de cámara que toca una selección limitada de instrumentos?

Al contrario, la visión ELT, llamada también “delegación de transformaciones”, se erige de nuevo como alternativa ágil y pertinente para procesar una diversidad de datos y arquitecturas.

Ésta hace posible una obra más sonora y más rica, una sinfonía sabiamente orquestada. Una sinfonía potente, eficaz, capaz de coordinar en el tiempo una cantidad ilimitada de instrumentos.

Es lo que vamos a abordar en este artículo: el ELT, verdadera respuesta a los desafíos de rendimiento e industrialización de flujos.
Una necesidad de cada vez mayor rendimiento

Performance ELT

No es ningún descubrimiento, el rendimiento es una exigencia cada vez mayor de lo que era en la génesis del ETL.

Si antes hacía falta realizar las extracciones de datos dentro de una ventana de producción de algunas horas a un ritmo semanal, o incluso diario para los más ambiciosos de nosotros, ahora es impensable para ciertas organizaciones un plazo de más de algunos segundos, ¡incluso algunos milisegundos entre dos extracciones de datos!

El mundo ha cambiado, lo que era un lujo en otra época es visto hoy como un artículo de primera necesidad.

Cualquier parecido con otra área de la vida cotidiana es casualidad.

Aunque…
Al mismo tiempo, es útil recordar la explosión fenomenal del volumen de datos a disposición de las organizaciones.

De acuerdo a los datos del International Digital Center (IDC) manejados por Statista (artículo de Journal Du Net)

"El volumen mundial de datos se multiplicará por 3,7 entre 2020 y 2025, luego por 3,5 cada cinco años hasta 2035, para alcanzar la vertiginosa suma de 2.142 zettabytes"

El auge del Big Data no es sino el comienzo de esta revolución en las tecnologías y volúmenes de datos.

Lo que nos ha mostrado esta nueva ola tecnológica es que una potencia de cálculo que antes estaba reservada a la investigación científica o a proyectos clasificados como “top secret”, está hoy en día al alcance de las organizaciones más pequeñas.

El ETL tradicional puede palidecer frente a un cluster Spark o al uso de Google Big Query.

El rendimiento está en el corazón mismo de la revolución del Big Data.

En este contexto, sólo la utilización inteligente de las funcionalidades nativas de cada plataforma está en la capacidad de aportar satisfacción en términos de rendimiento.

La delegación de transformaciones (ELT) es entonces, como lo hemos explicado, no solamente una alternativa, sino una necesidad.

Ningún ETL tradicional hoy en día pretende reemplazar a un cluster Spark o realizar la transformación tomando el lugar de la base de datos de destino, ya sea que se trate de Google BigQuery o de cualquier otra tecnología.

El rendimiento debe ser seguro e inmediato, y lo más cerca posible de los datos.

Ya no es imaginable el desplazar el dato a un motor, ya que los análisis de datos se hacen en el orden de los terabytes, incluso petabytes, no agregados, incluso no estructurados, lo cual incrementa la necesidad de velocidad en los procesamientos.

Un control indispensable de los costos de la nube

Ahora que esto se ha planteado, hay que agregar un pequeño bemol (salvedad) a esta sinfonía: rendimiento sí, pero no a cualquier precio.

Está lejos la época en la que las válvulas presupuestarias estaban bien abiertas, ¡cuando las inversiones eran una misión principal de los directores de seguridad informática y que el único límite era el de la ley de Moore!

En un momento creímos que el Big Data sería una puerta de salida, un pretexto útil para siempre poder justificar las inversiones faraónicas. Pero la realidad presupuestaria por desgracia ha calmado las ansias de los más ávidos de tecnologías.

La nube durante un tiempo parecía una idea genial para controlar los costos, o simplemente para desplazarlos de un renglón presupuestario a otro. Sobre esto existe un debate.

Sin embargo, incluso el sonido dulce y ligero de la flauta mágica de la nube no evita la necesidad de tener bajo control la partitura. Al contrario, la simplicidad del modelo, en dónde sólo hace falta una regleta para ajustar la potencia, puede conducir rápidamente a excesos presupuestarios..

maîtrise indispensable des coûts du cloud

De acuerdo al Gartner (enero 2020), "En 2024, casi todas las aplicaciones tradicionales migradas a la nube como servicio (infrastructure as a service / IaaS) van a requerir una optimización de los costos para ser realmente eficaces y rentables."

Para que el modelo funcione, hay que tener bajo control los costos, y por lo tanto la utilización.

Y es allí que la delegación de transformaciones, pensada inteligentemente, puede aportar su lote de soluciones.

El control de los costos de la nube se basa en dos factores: adecuar y regular la utilización.

Las tecnologías de datos en la nube poseen cada una su modo de facturación.

Adecuar la utilización consistirá en utilizar cada funcionalidad de forma acertada y de manera correcta, para reducir la utilización a un mínimo estricto, y sobre todo evitar que haya excesos.

Más brevemente: hacer lo mismo, pero utilizando menos o mejor, y sin sorpresas.

Regular la utilización consistirá en liberar los recursos en función de la utilización real.

Sólo en el momento justo, no más que eso. La arquitectura “serverless” de la nube se presta para este tipo de regulación, sólo falta que la solución de integración de datos pueda respetar este tipo de arquitectura, lo cual está lejos de ser fácil cuando se utiliza un motor que se encuentra activo permanentemente.

Incluso así, el enfoque por delegación de transformaciones claramente es una alternativa interesante.

Como un director de orquesta, sólo hace que cada instrumento toque en el momento necesario, regula los matices y las armonías, lleva el compás del ritmo y los momentos de silencio.

Nativamente serverless, sólo tiene razón de existir por la necesidad de optimizar la utilización de los recursos. Su desafío es ahora: la industrialización de las optimizaciones. 

Big Data, de lo artesanal a la industrialización

 

La industrialización… es un concepto que ha sido bastante mal llevado en los últimos tiempos.

Pero era de hecho una necesidad.
El Big Data, el aprendizaje de máquina, la inteligencia artificial, comenzaron con fases de exploración, para no decir de domesticación.
Había que tener una naturaleza aventurera para comprender y sacar provecho de estas tecnologías. El comienzo es por descubrimiento, por fases, pruebas y ensayos.
Y, como en todos los procesos de innovación, la industrialización simplemente no había encontrado su lugar.

El inicio en modo “artesanal” era completamente apropiado y ha rendido sus frutos..

Hay que afinar los instrumentos.

Estas tecnologías han encontrado progresivamente su lugar en el paisaje de los departamentos de sistemas informáticos. Incluso si algunos están todavía en fase experimental, otros los manejan exitosamente, y otros han pasado a otra cosa…

Para aquellos que los han integrado ya, es tiempo de pasar a la fase industrial, de pasar del concepto a la puesta en producción.

Y es aquí que la herramienta de integración de datos debe tocar su partitura.

El reto ya no es el motor sino la industrialización de los flujos de transformaciones y algoritmos.

Cuando la partitura se escribe, hay que distribuirla, democratizarla, y para los artistas del dato, convertirla en música y repetirla.

La delegación de transformaciones es el modo de funcionamiento privilegiado para estas plataformas.

Sin embargo, esto no se resume, como parecen pensar algunos, en simplemente saber hacer trabajar las tecnologías.

El verdadero ELT automatiza las tareas e incrementa la productividad, la calidad y la confiabilidad.

El buen ELT de los años 2020, es el ELT que industrializa, que hace ganar tiempo.

Y hablando de tiempo, ¡todavía hace falta más! El tiempo para diseñar los nuevos usos del dato. Si la transformación de datos era crucial en el universo de la inteligencia de negocio de los años 90, ¡lo es todavía más en el mundo del data lake!

Es en lo que vamos a profundizar en nuestro próximo artículo: el lugar de la transformación en los sistemas de gestión del dato..

Próximamente la continuación de este artículo: “La transformación, piedra angular de los sistemas de gestión del dato"

 

Sobre el autor : 

Fabien Bruder - Stambia

Fabien BRUDER, Cofundador de la compañía Stambia desde 2009.

Ingeniero informático EPITA, especializado en inteligencia artificial, diplomado en gestión de empresa en el IAE de París.

Luego IBS France (integrador), después Sagent (desarrollador), pasa 7 años con la empresa de desarrollo Sunopsis (Oracle), como asesor, director técnico y luego director de agencia.

Esto suma 20 años de trabajo como experto en el área de integración de datos..

El volumen mundial de datos se multiplicará por 3,7 entre 2020 y 2025, luego por 3,5 cada cinco años hasta 2035, para alcanzar la vertiginosa suma de 2.142 zettabytes