Google celebró a mediados de mayo su conferencia de desarrolladores I/O 2024 para dar a conocer todas las novedades en lo que se refiere a inteligencia artificial (IA), dispositivos y sistema operativo.
Este año, la IA fue la principal protagonista del evento, ya que se presentó el modelo Gemini 1.5 Pro, el agente Project Astra, nuevas herramientas de creación de contenido, funciones con inteligencia artificial para buscar información en el buscador y varias novedades de Gemini en Google Workspace. Pero, sin duda, las apuestas más expectantes de la compañía de Mountain View fueron Veo, un modelo de generación de vídeo, e Imagen 3, un modelo de texto a generación de imágenes con mayor calidad.
Pese a que Imagen 3 se puso a disposición de los usuarios a finales de agosto para usarse en todos los idiomas —incluido el español— desde Gemini, el lanzamiento de Veo no se ha producido hasta principios de diciembre. El diario The Verge informa que "Veo ya está disponible para que las empresas comiencen a incorporarlo a sus procesos de creación de contenido".
Qué es y cómo funciona Veo
Veo es un modelo de generación de vídeo que puede crear dicho contenido multimedia con una resolución de 1080p. Esta novedad posee un análisis avanzado del lenguaje natural y la semántica visual, convierte peticiones en vídeos, renderiza con exactitud detalles en peticiones largas, responde con precisión a peticiones de términos cinematográficos, proporciona un nivel sin precedentes de control creativo y crea imágenes coherentes para que las personas, animales u objetos se muevan de forma realista.
Todas estas capacidades son posibles porque, según Google, "Veo se cimenta en años de trabajo con vídeo generativo, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, que combinan arquitectura, normas de escalado y otras técnicas novedosas para mejorar la latencia y la resolución del vídeo generado".
Veo incorpora marcas de agua
Tanto Veo como Imagen 3 tienen protecciones integradas para que no generen contenido dañino o violen las protecciones de derechos de autor, además, todo lo producido por ambas inteligencias artificiales están integradas con la tecnología SynthID de DeepMind —una especie de marca de agua digital invisible que, según Google, puede reducir los problemas de desinformación y atribución errónea—.