Noticias Tecnología

Google DeepMind lanza Genie 2, su nuevo modelo generativo para crear entornos 3D a partir de imágenes

Google Fotos reforma el diseño de su aplicación y dirá adiós a la pestaña de "Recuerdos"

Google lanza Veo e Imagen 3 para revolucionar la creación de contenido

Por Federica Estrella

Infozonamovilidades/4/4/18

jueves 05 de diciembre de 2024, 19:49h

Escucha la noticia

La división de Inteligencia Artificial de Google DeepMind ha lanzado Genie 2, un innovador modelo generativo que permite la creación de escenarios virtuales en tres dimensiones (3D) a partir de imágenes. Este avance puede ser utilizado tanto por humanos como por agentes de IA entrenados

La compañía ha destacado la importancia de los videojuegos en la investigación de la Inteligencia Artificial, señalando que su estructura y los desafíos que presentan son entornos ideales para probar y perfeccionar esta tecnología. Con un historial de colaboración en proyectos como AlphaGo y AlphaStar, Google DeepMind busca seguir avanzando en este campo.

En cuanto a su mecanismo, Genie 2 es capaz de generar diversos entornos tridimensionales a partir de descripciones textuales o imágenes, lo que abre la puerta a nuevas experiencias interactivas. Para su funcionamiento, se han utilizado imágenes del modelo generativo Imagen 3, junto con descripciones de los escenarios deseados, permitiendo que tanto humanos como agentes de IA controlen el proceso. En este contexto, se ha empleado SIMA, un agente escalable diseñado para operar en múltiples mundos de videojuegos.

Google Fotos reforma el diseño de su aplicación y dirá adiós a la pestaña de "Recuerdos"

Este modelo puede crear "mundos consistentes" de hasta un minuto de duración, respondiendo de manera inteligente a las acciones de los usuarios. Por ejemplo, es capaz de identificar que las teclas de flecha deben mover al personaje y no a otros elementos del entorno, como árboles o nubes.

Genie 2 tiene la capacidad de simular las consecuencias de las acciones de los personajes, como saltar o nadar, y ha sido entrenado con un amplio conjunto de datos de video. Además, puede recordar partes del entorno que no están a la vista y reproducirlas con precisión cuando vuelven a ser visibles, generando contenido dinámico desde diferentes perspectivas, ya sea en primera o tercera persona.

El modelo también es capaz de definir cómo los jugadores interactúan con objetos, permitiendo acciones como estallar globos, abrir puertas o romper barriles. Además, puede crear efectos visuales como humo, reflejos, y simulaciones de iluminación direccional, mejorando así la inmersión del usuario.

Para finalizar, Google DeepMind ha enfatizado que Genie 2 demuestra el potencial de los modelos generativos para crear diversos entornos 3D, acelerando la investigación en agentes de IA, un área que aún se encuentra en desarrollo inicial.

Google DeepMind