www.zonamovilidad.es
Por María García
x
infozonamovilidades/4/4/18
miércoles 04 de diciembre de 2024, 13:00h

Escucha la noticia

Un equipo de investigadores del MIT ha presentado una nueva técnica que mejora la generación de modelos 3D realistas mediante inteligencia artificial generativa. Este avance resuelve problemas de calidad en los modelos 3D, facilitando su uso en áreas como la realidad virtual y el diseño ingenieril.

La creación de modelos 3D realistas para aplicaciones como la realidad virtual, el cine y el diseño de ingeniería ha sido tradicionalmente un proceso arduo, caracterizado por múltiples intentos y errores manuales. Aunque los modelos de inteligencia artificial generativa han demostrado ser eficaces en la producción de imágenes 2D a partir de indicaciones textuales, su capacidad para generar formas tridimensionales se ha visto limitada.

Con el fin de cerrar esta brecha, se ha desarrollado una técnica innovadora conocida como Score Distillation, que utiliza modelos de generación de imágenes en 2D para crear formas 3D. Sin embargo, los resultados obtenidos a menudo presentan problemas de calidad, con salidas que pueden resultar borrosas o caricaturescas.

Han logrado implementar una solución sencilla al método Score Distillation, permitiendo así la generación de formas 3D nítidas y de alta calidad

Un equipo de investigadores del MIT ha estudiado las relaciones y diferencias entre los algoritmos empleados en la generación de imágenes 2D y formas 3D. A partir de este análisis, identificaron las causas fundamentales que conducen a la baja calidad en los modelos tridimensionales. Con ello, han logrado implementar una solución sencilla al método Score Distillation, permitiendo así la generación de formas 3D nítidas y de alta calidad que se asemejan más a las mejores imágenes generadas por modelos en 2D.

A diferencia de otros enfoques que requieren un reentrenamiento o ajuste fino del modelo generativo, lo cual puede resultar costoso y laborioso, la técnica desarrollada por los investigadores del MIT consigue una calidad comparable o superior sin necesidad de entrenamiento adicional ni procesos complejos posteriores.

Mejoras en la comprensión matemática

Además, al identificar el origen del problema, los científicos han mejorado la comprensión matemática detrás del Score Distillation y técnicas relacionadas, lo que abre la puerta a futuras investigaciones que podrían optimizar aún más el rendimiento. “Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes que sean más rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante graduado en ingeniería eléctrica y ciencias computacionales (EECS) y autor principal del estudio.

Lukoianov está acompañado por Haitz Sáez de Ocáriz Borde, estudiante graduado en la Universidad de Oxford; Kristjan Greenewald, científico investigador en el MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, científico en el Toyota Research Institute; Timur Bagautdinov, investigador en Meta; junto con los autores senior Vincent Sitzmann y Justin Solomon. Este trabajo será presentado en la Conferencia sobre Sistemas de Procesamiento de Información Neural que abrirá sus puertas el próxima día 10 de diciembre.

Del 2D al 3D, un desafío complejo

Los modelos de difusión como DALL-E son ejemplos destacados de inteligencia artificial generativa capaz de producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores añaden ruido a las imágenes originales y luego enseñan al modelo a revertir este proceso mediante un proceso denominado "desruido". Sin embargo, estos modelos no logran generar formas tridimensionales realistas debido a la escasez de datos 3D disponibles para su entrenamiento.

Para superar esta limitación, se introdujo el Score Distillation Sampling (SDS) en 2022. Esta técnica combina imágenes 2D para formar representaciones 3D comenzando desde una representación aleatoria y ajustándola progresivamente hasta alcanzar el objeto deseado. Sin embargo, las formas generadas frecuentemente resultan borrosas o sobresaturadas.

Los investigadores del MIT analizaron cada paso del SDS e identificaron un desajuste entre una fórmula clave utilizada en este proceso y su contraparte en los modelos difusionales en 2D. Al simplificar esta fórmula compleja mediante técnicas de aproximación efectivas, que inferían términos ausentes desde las representaciones actuales, lograron mejorar significativamente la calidad visual final.

“Al hacerlo así, como predice nuestro análisis, se generan formas tridimensionales que lucen nítidas y realistas”

“Al hacerlo así, como predice nuestro análisis, se generan formas tridimensionales que lucen nítidas y realistas”, explica Lukoianov. Además, aumentaron la resolución del renderizado e hicieron ajustes adicionales a algunos parámetros del modelo para potenciar aún más la calidad.

Finalmente, gracias a su enfoque basado en un modelo difusional preentrenado, los investigadores han podido crear objetos tridimensionales suaves y realistas sin incurrir en costosos procesos adicionales. Sin embargo, este método también hereda sesgos inherentes al modelo utilizado inicialmente.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios