Tecnología

Sora: la nueva inteligencia artificial de OpenIA que genera videos

La competencia por liderar el desarrollo de la inteligencia artificial sigue poniéndose más y más interesante. Pues a pocas horas de que Google anunciara Gemini 1.5, una nueva versión de su modelo multimodal destinada a competir en mejores condiciones con GPT-4, OpenAI ha revelado su primer modelo de generación de vídeos.

En el ámbito tecnológico, la IA ha dado de qué hablar esta semana, no sólo por la llegada de Gemini a Chile y el anuncio de su versión Gemini 1.5, sino también por OpenIA y el adelanto de Sora. Esta última en particular ha revolucionado las redes, pues es una inteligencia artificial que se encuentra en su versión experimental y permite, por ahora, generar videos de hasta 60 segundos a través de un prompt de texto (una indicación o comando de texto).

¿Cómo funciona Sora?

Al respecto, la compañía liderada por Sam Altman asegura que el modelo es capaz de generar escenas realistas, adhiriéndose a las indicaciones de los usuarios. Todo esto, manteniendo la calidad de los fotogramas. Sora, funciona básicamente con la misma mecánica que los generadores de texto a imagen, como lo es DALL-E o Midjourney. Es decir, se usa un prompt para describir lo que se busca que la herramienta genere. La calidad del video y precisión del mismo dependerán de la habilidad del usuario para generar prompt precisos para el modelo en cuestión.

En redes se han viralizado los videos que han sido generados por Sora, particularmente por los cambios de plano y la calidad de estos. Lo anterior se debe a indicaciones muy precisas en los prompts. Por ejemplo, uno de los más virales es el de una modelo en Tokio. En el prompt se describe minuciosamente la apariencia de la mujer que camina en las calles de Tokio, y se brindan detalles sobre todo lo que le rodea. Desde las luces de neón brillantes hasta la humedad reflectante del suelo.

“Una mujer elegante camina por una calle de Tokio llena de luces de neón, cálidas y luminosas, junto a carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Ella usa gafas de sol y lápiz labial rojo. Ella camina con confianza y casualidad. La calle está húmeda y reflectante, creando un efecto espejo de las luces de colores. Atrás muchos peatones caminan”, señala el prompt traducido al español que generó el video.

Sora, según explican desde OpenIA, es capaz de generar escenas complejas con múltiples personajes. Pero hay más, también se puede especificar el tipo de movimiento del sujeto y detalles precisos del entorno. “El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, señalan desde la empresa.

¿Cómo es capaz Sora de generar videos tan precisos?

Esto es posible debido a que el modelo fue entrenado con una enorme biblioteca de vídeos, de forma que sabe reconocer movimientos, descripciones y casi cualquier cosa que los usuarios le pidan, siendo capaz de recrearlos casi a la perfección. En este sentido, Sora está calificada para saber a lo que el usuario se refiere tanto en términos de vestimentas, accesorios, efectos visuales o tipos de personas.

Si bien los videos parecen demasiado increíbles para ser ciertos, OpenAI añade que todos los videos publicados en el blog que dio el anuncio de este nuevo modelo no han sido editados. En caso de que lo que señale la compañía sea completamente real, estamos ante una herramienta prometedora.

A pesar de lo anterior, OpenIA advierte que, como cualquier modelo de IA, Sora también tiene sus propias limitaciones. Según dicen, “puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto”.

¿Cuándo estará disponible Sora?

En este momento Sora se encuentra disponible únicamente para los investigadores de OpenAI, es decir, su funcionamiento está limitado a pruebas de laboratorio. No obstante, OpenIA señaló que estará al alcance del público en el catálogo de sus productos después que se tomen varias medidas para garantizar la seguridad de los usuarios. Esto último es muy importante, en particularmente para evitar que se generen Deepfakes como sucedió con Taylor Swift recientemente.

Todavía no se ha dado ninguna fecha concreta para la llegada de la IA al mercado. Pero seguramente no falta mucho tiempo para poner en prueba esta prometedora inteligencia artificial, la cual deja en evidencia los avances agigantados de la industria.

Sora: la nueva inteligencia artificial de OpenIA que genera videos

¿Cómo funciona Sora?

{{_txt_titular}}

¿Cómo es capaz Sora de generar videos tan precisos?

¿Cuándo estará disponible Sora?

{{_txt_titular}}

Gemini: La IA más potente de Google ya llegó a Chile

Esta semana Facebook cumplió 20 años: un repaso por su historia y controversias

Todo sobre el nuevo Apple Vision Pro

Los 10 empleos que la inteligencia artificial eliminará primero