Para profundizar más sobre este tema, Microsoft ha publicado en su blog que estos nuevos modelos son "ideales para escenarios extremos y entornos con limitaciones de cómputo". Actualmente, ya se están utilizando en diversas industrias para explorar diferentes aplicaciones, como la detección de anomalías en procesos de fabricación y la mejora de las experiencias del cliente en el sector minorista.
Phi-4-multimodal
El modelo Phi-4-multimodal cuenta con 5.600 millones de parámetros y combina el procesamiento de voz, imágenes y texto dentro de una única arquitectura unificada. Gracias a la implementación de técnicas avanzadas de aprendizaje intermodal, este modelo permite interacciones que son "más naturales y sensibles al contexto", según lo explicado por Microsoft. También está programado para procesar simultáneamente imágenes y audio, así como gráficos, tablas y documentos, superando a otros modelos especializados, como WhisperV3 y SeamlessM4T-v2-Large, en tareas de reconocimiento automático de voz y traducción. Este modelo también se distingue por ofrecer una inferencia de baja latencia y alta eficiencia, optimizando su ejecución en el dispositivo y reduciendo la sobrecarga computacional.
Phi-4-mini
Por otro lado, Phi-4-mini es un modelo más compacto, integra 3.800 millones de parámetros, que destaca por su capacidad para responder a consultas agrupadas y su amplio vocabulario de 200.000 palabras. Microsoft ha subrayado que, aunque su tamaño es reducido, Phi-4-mini supera a modelos más grandes en tareas relacionadas con el texto, como el razonamiento, las matemáticas, el seguimiento de instrucciones y la codificación. Este modelo admite secuencias de hasta 128.000 tokens, ofreciendo alta precisión y escalabilidad, lo que permite a los desarrolladores integrarlo en aplicaciones de IA avanzadas.
Finalmente, Microsoft ha anunciado que tanto Phi-4-multimodal como Phi-4-mini ya están disponibles en Azure AI Foundry, Hugging Face y Nvidia API Catalog, ofreciendo una experiencia multimodal completa que promete revolucionar el desarrollo de aplicaciones de IA.