Azure Machine Learning y Fabric Data Science son dos herramientas que conviven en el mundo de la Ciencia de Datos. A lo largo de este artículo veremos cuál se adecuará más a nuestra situación, en función del proyecto que estemos planteando.
¡Comenzamos!
Azure Machine Learning es un servicio PaaS de Azure diseñado para facilitar el desarrollo, entrenamiento y despliegue de modelos de aprendizaje automático. Par ello, ofrece una gama de herramientas que parten de un funcionamiento más básico y no-code, con la herramienta de AutoML, pasando por un funcionamiento más personalizado y low-code, con la herramienta Designer, y llegando a un funcionamiento avanzado, versátil y completamente personalizable, con la ejecución de código en Python y R, entre otros. Además, su integración con otros servicios de Azure garantiza un acceso fluido a datos y recursos, favoreciendo la colaboración en equipos que se encuentren trabajando en proyectos de inteligencia artificial.
Por el otro lado, Microsoft Fabric Data Science es un servicio SaaS de Microsoft que integra análisis de datos, ingeniería de datos y ciencia de datos en un mismo entorno colaborativo. Gracias a esto, se facilita la creación y gestión de flujos de trabajo dentro de proyectos centrados en la analítica del dato, permitiendo que equipos multidisciplinares puedan trabajar juntos en el modelado, la preparación y la visualización de datos. Además, su integración dentro del ecosistema de Microsoft Fabric hace que se pueda crear una solución completa de datos sin tener que preocuparse por la interacción entre los distintos departamentos; todo ello recae sobre Fabric, permitiendo que los equipos se centren en el desarrollo.
Ventajas y Desventajas
Cada uno de los dos servicios va a tener una serie de puntos fuertes y puntos débiles, que van a ser los que determinen qué solución escoger, en función a las necesidades que tenga un proyecto.
Azure Machine Learning
Ventajas
• Gran variedad de posibilidades a la hora de implementar una instancia o clúster de computación que se adapte a las necesidades del proyecto y con configuraciones optimizadas para la experiencia de un científico de datos.
• Posibilidad de escalar los recursos para adaptarlos a las necesidades del proyecto.
• Está preparado para realizar inferencia, tanto en tiempo real como por lotes.
• Cuenta con un catálogo de modelos de IA Generativa listos para ser desplegados, tanto en una computación administrada como en una API Serverless, donde solamente se paga por su uso.
Desventajas
• Necesidad de integración (aunque sea sencilla) con otros servicios para construir un ecosistema completo.
• Los costes pueden crecer rápidamente en función de su uso.
• La incorporación lenta del SDK v2 está generando alguna incertidumbre a la hora de mantener proyectos.
Microsoft Fabric Data Science
Ventajas
• La integración en el ecosistema de Fabric hace que use sus capacidades de computación, sin necesidad de tener que desplegar una nueva específica para esto, con los costes que esto conlleve.
• Pertenecer al mismo ecosistema hace que la integración con los conjuntos de datos pertinentes sea inmediata, tanto de lectura como de escritura, para las fases de entrenamiento e inferencia.
• El uso de Spark hace que los datos se procesen en memoria y se use una computación distribuida, mejorando sustancialmente la eficiencia en situaciones de grandes volúmenes de datos (Big Data).
Desventajas
• Al ser relativamente nuevo, algunas funcionalidades que ya están en un estado de madurez en Azure Machine Learning (como, por ejemplo, la inferencia en tiempo real) pueden no estar disponibles.
• Su escalabilidad se puede encontrar limitada, si la comparamos con la amplia gama de posibilidades que ofrece Azure Machine Learning.
PODCAST IA | Microsoft Fabric: Analítica e Innovación en la era de la Inteligencia Artificial
¿Quieres conocer Microsoft Fabric en profundidad y qué puede hacer con IA? Suscríbete ya a nuestro podcast de Data & IA y echa un vistazo a nuestro programa especial sobre Microsoft Fabric.
🔽🔽 Aquí puedes ver el programa completo 🔽🔽
¿Cuál Debo Escoger?
Si bien ambos servicios se prestan a ser utilizados en la gran mayoría de casos a plantear, existen una serie de situaciones en los que uno de ellos puede ser más idóneo que el otro.
Cuándo utilizar Azure Machine Learning
• Si los conjuntos de datos con los que se van a trabajar son externos a una implementación de Microsoft Fabric. Azure Machine Learning es más adecuado para trabajar con conjuntos de datos específicos y proporciona control de versiones de conjuntos de datos de forma predeterminada.
• Si buscamos trabajar con puntos de conexión en tiempo real o por lotes para implementar, por ejemplo, modelos que sean utilizados por aplicaciones web. Azure Machine Learning está preparado para ser utilizado en este tipo de situaciones de manera sencilla.
Cuándo utilizar Microsoft Fabric Data Science
• Si los conjuntos de datos sobre los que van a operar los modelos se encuentran ubicados en almacenes de datos o lagos de datos implementados en Microsoft Fabric, o aquellos que puedan ser accesibles mediante un acceso directo de OneLake. Si los datos se encuentran almacenados en OneLake, los científicos de datos podrán utilizarlos directamente, sin tener que crear nuevos conjuntos de datos o copiarlos.
• Si los modelos van a ser utilizados para realizar predicciones sobre datos que serán procesados dentro de un almacén de datos o lago de datos, por ejemplo, para incorporarlas como una nueva columna de un modelo semántico que vaya a ser utilizado posteriormente para la visualización de datos en un cuadro de mandos.
Coste de la Solución
En función del servicio que se escoja, el cálculo de los costes va a ser más o menos ajustado a la situación de la solución.
Si se utiliza una solución basada en Azure Machine Learning, el cálculo del coste de ejecución de los modelos de aprendizaje automático se puede aislar con respecto al resto de la solución. De esta manera, podemos tomar una serie de condiciones estándares que nos permitan, de manera aproximada, acercarnos a un coste normal relativo para una solución de estas características.
De esta manera, tomando una máquina virtual D8ds v4, que consta de 8 Cores y 32GB de RAM, y estimando que el uso para el consumo del modelo de esta máquina virtual pueda acercarse a las 2 horas diarias, incorporando un coste adicional por el mantenimiento de los discos de esta máquina, que es independiente de su uso, el coste ascendería a 34’42€ mensuales:
Si se utiliza una solución que radique sobre el ecosistema de Fabric, la experiencia de Data Science no va a generar gastos adicionales sobre el mismo. El servicio de Fabric llevará asociado unas Unidades de Capacidad, (CUs, por sus siglas en inglés) donde la experiencia de Data Science solamente será una herramienta más que se ajustará a los CUs contratados para la solución al completo.
Conclusión
La realidad es que ninguno es mejor que el otro; ambos se pueden adecuar a la gran mayoría de situaciones, y la decisión va a depender de la estructura de nuestra solución al completo y cómo el bloque de machine learning se va a embeber dentro de ella; incluso, pueden complementarse el uno al otro, por ejemplo, desarrollando un modelo en Fabric e implementándolo en un punto de conexión de Azure Machine Learning, o desarrollando un modelo en Azure Machine Learning cuyos orígenes de datos sean extraídos de una base de datos almacenada en Fabric.