Saltar al contenido

Microsoft Fabric: el músculo de Microsoft se pone en marcha

di Michele Iurillo

 

Muchos de vosotros me diréis que a veces Microsoft tarda en reaccionar y a veces saca productos no maduros al mercado. ¿Queremos hablar de PurView por ejemplo? 

En un mercado con diferentes productos maduros, nos sorprendimos todos cuando Microsoft empezó a hablarnos de PurView. Purview es una plataforma de datos integral que nace con la idea de ayudar a las organizaciones a descubrir, catalogar y gobernar sus activos de datos. Su misión es proporcionar una vista unificada de los datos en la organización, promoviendo la colaboración y ayudando en el enriquecimiento de los datos. De momento lo que dicen los clientes es que es un producto caro e inmaduro sobre todo debido a ciertas limitaciones:

Conectores limitados: Aunque Purview admite una variedad de conectores para descubrir y catalogar datos, puede haber limitaciones en términos de la disponibilidad de conectores específicos para ciertas fuentes de datos o sistemas. Esto puede afectar la capacidad de Purview para acceder y catalogar ciertos tipos de datos. 

Complejidad de configuración inicial: Configurar Purview requiere tiempo y esfuerzo debido a la necesidad de configurar y establecer las conexiones con las fuentes de datos existentes en la organización. Esto implica definir los permisos de acceso, configurar conexiones de red y asegurarse de que los sistemas estén correctamente configurados para la catalogación y el descubrimiento de datos. Esta limitación es típica de todas las herramientas de gobierno que no tienen un enfoque end-to-end, el gobierno es el techo lo que es necesario es construir la casa desde el principio. 

Dependencia de conectividad: Para que Purview funcione de manera óptima, es necesario que los sistemas y fuentes de datos estén disponibles y accesibles. Si hay interrupciones o problemas de conectividad con los sistemas de origen, esto puede afectar la capacidad de Purview para catalogar y descubrir datos en tiempo real. Un repositorio de metadatos centralizado y no federado puede generar ciertos problemas sobre todo cuando no tiene un enfoque de interoperabilidad hub-and-spoke. Es el gran límite de todos los sistemas basados en micro-servicios que son muy difíciles de escalar. 

Limitaciones de escalabilidad: Aunque Purview es escalable y puede manejar grandes volúmenes de datos, puede haber limitaciones en la escala dependiendo de la infraestructura y la configuración utilizada. Si la cantidad de datos o la complejidad de los metadatos aumenta significativamente, es posible que se requieran ajustes en la configuración de Purview para garantizar un rendimiento óptimo. (y no hay mucha documentación al respecto)

Dependencia de la estructura de datos: Purview se basa en la capacidad de interpretar y comprender la estructura y los metadatos de los datos. Si los datos no tienen una estructura clara o están en formatos no compatibles, Purview puede tener dificultades para catalogar y descubrir adecuadamente estos datos. Esta limitación es parecida a otras herramientas de estas características sobre todo aquella que hablan de uso intensivo de la IA para el descubrimiento de metadatos.

 

El músculo…

Pero los amigos de Seattle tienen una capacidad muy importante, cuando ponen su músculo de desarrollo acaban arrasando casi con todo. El clásico ejemplo es PowerBI, cuando salio otros vendors no se preocuparon mucho en el papel era un producto que tenía que cerrar el “círculo de la BI de Microsoft”, cuando tienes SQL y todo el resto no puedes decir que Excel es tu front end. Esto ha hecho despegar a unos cuantos competidores. Esos competidores ahora ven cómo su cuota de mercado se reduce semestre tras semestre porque aquel PowerBI que daba casi risa al salir al mercado hoy es la killer application de la BI o casi.

Azure es un ecosistema, y aunque debería ser abierto tiene aún ciertos problemas de interoperabilidad e integración con otros ecosistemas. La apificación es algo que aún se tiene que consolidar. Cualquier ecosistema con poca capacidad de integración y sin posibilidad de interoperabilidad abierta no puede ser un buen punto de partida si quieres montar un data stack moderno.

 

¿Qué encontramos dentro Microsoft Fabric?

¿Pero qué anuncia la casa de Seattle sobre Microsoft Fabric? Aquí van sus componentes algunos ya listos otro en fase de despliegue:

Data Factory : Data Factory es un servicio en la nube que permite la orquestación y programación de canalizaciones de datos. Proporciona más de 150 conectores a diversas fuentes de datos, tanto en la nube como locales, lo debería facilitar la extracción, transformación y carga de datos. Ofrece una características sencillas para arrastrar y soltar para lanzar la  transformación de los datos, lo que simplifica el proceso de limpieza y preparación de datos antes de analizarlos. Eso sí debería probarlo…

También encontramos Synapse y sus limitaciones… Que son unas cuantas…

 

Synapse y sus limitaciones

Disponibilidad regional: Al igual que otros servicios en la nube, la disponibilidad de Synapse puede variar según la región geográfica. Esto significa que no todos los servicios y características de Synapse pueden estar disponibles en todas las ubicaciones. Aunque esto se irá resolviendo.

Costos: El uso de Synapse puede conllevar costos adicionales. La escala y complejidad de las operaciones de datos y análisis pueden afectar los costos asociados con el almacenamiento, el procesamiento y el rendimiento de Synapse. Es importante tener en cuenta los costos asociados y planificar en consecuencia. Con la llegada de la nube el concepto de licenciamiento ha cambiado de forma sustancial y sin preguntar a los usuarios de Informática.

Capacidad de almacenamiento: Si bien Synapse proporciona una experiencia convergente de lago y almacén de datos, hay límites en la capacidad de almacenamiento. Estos límites pueden variar según el nivel de servicio y el tipo de almacenamiento que se utilice. Es importante monitorear y administrar el almacenamiento para evitar superar estos límites.

Rendimiento: Aunque Synapse ofrece un rendimiento de consultas SQL líder en la industria, el rendimiento puede verse afectado por el tamaño y la complejidad de los conjuntos de datos, así como por las consultas y operaciones realizadas. Es importante optimizar el diseño de las consultas y utilizar las mejores prácticas para obtener un rendimiento óptimo. Un motor de procesamiento columnar sería mejor… 

Capacidad de procesamiento: Synapse Data Engineering y Synapse Data Science ofrecen capacidades de procesamiento y ejecución de consultas, pero también tienen límites en términos de escalabilidad y capacidad de procesamiento. Estos límites pueden afectar el rendimiento y la velocidad de ejecución de tareas intensivas de procesamiento de datos.

Integraciones y conectividad: Aunque Synapse proporciona una amplia gama de conectores y capacidades de integración con fuentes de datos, sistemas externos y herramientas, puede haber limitaciones en términos de las integraciones disponibles. Algunas integraciones pueden requerir configuraciones adicionales o personalizaciones. Es lo de siempre una cosa es acceder al dato, una cosa es acceder a los metadatos, una cosa es acceder a los procesos que están detrás (Cobol?)

Synapse Data Engineering : Synapse Data Engineering ofrece experiencias de creación para Apache Spark, un potente motor de procesamiento de datos. Permite a los usuarios iniciar rápidamente instancias de Spark con pools en vivo, lo que acelera el tiempo de inicio y proporciona una mayor capacidad de procesamiento. Además, facilita la colaboración entre equipos al proporcionar capacidades de colaboración integradas. Quizá para ciertos casos de uso Vertica iría mejor que Spark. Spark es un sistema de procesamiento de datos distribuido y versátil, Vertica se enfoca en consultas y análisis rápidos en grandes volúmenes de datos. 

Synapse Data Science: Synapse Data Science es una solución diseñada para científicos de datos. Proporciona un flujo de trabajo integral que permite a los científicos de datos crear modelos de inteligencia artificial sofisticados. También facilita la colaboración entre los miembros del equipo y ofrece capacidades para entrenar, desplegar y gestionar modelos de aprendizaje automático.

Synapse Data Warehousing: Synapse Data Warehousing es una solución que combina las capacidades de un lago de datos y un almacén de datos. Ofrece un rendimiento de consultas SQL líder en la industria en diversos formatos de datos abiertos. Esto permite a las organizaciones analizar grandes volúmenes de datos de manera eficiente y obtener información valiosa de ellos.

Synapse Real-Time Analytics: Synapse Real-Time Analytics se enfoca en el análisis de datos en tiempo real, especialmente aquellos provenientes de dispositivos de Internet de las Cosas (IoT), telemetría, registros, entre otros. Permite a los desarrolladores trabajar con volúmenes masivos de datos semiestructurados y analizarlos con un alto rendimiento y baja latencia, lo que es crucial para aplicaciones que requieren respuestas rápidas.

Power BI en Fabric: Power BI es una herramienta de visualización y análisis de datos líder en la industria. En el contexto de la información proporcionada, «Power BI en Fabric» hace referencia a la integración profunda de Power BI en Microsoft 365. Esto significa que los usuarios de negocio pueden acceder a información relevante y visualizaciones directamente desde las aplicaciones de Microsoft 365 en las que ya trabajan, lo que facilita la toma de decisiones basadas en datos.

Data Activator (en desarrollo): Data Activator es una próxima solución que ofrecerá detección y supervisión de datos en tiempo real. Permitirá activar notificaciones y acciones específicas cuando se encuentren patrones predefinidos en los datos, todo ello sin necesidad de escribir código. Esta herramienta ayudará a las organizaciones a tomar decisiones más rápidas y basadas en eventos en tiempo real.

Solo nos falta probarlo para ver si efectivamente una vez más Microsoft ha dado en el clavo.