Google, de Alphabet Inc., está lanzando una nueva versión de su poderoso modelo de inteligencia artificial que, según dice, puede manejar mayores cantidades de texto y video que los productos fabricados por sus competidores.
El modelo de IA actualizado, llamado Gemini 1.5 Pro, estará disponible el jueves para los clientes y desarrolladores de la nube para que puedan probar sus nuevas características y eventualmente crear nuevas aplicaciones comerciales. Google y sus rivales han gastado miles de millones para mejorar sus capacidades en IA generativa y están interesados en atraer clientes corporativos para demostrar que sus inversiones están dando sus frutos.
‘Hoy nos centramos ante todo en ofrecerles la investigación que permitió este modelo’, dijo Oriol Vinyals, vicepresidente de Google y codirector tecnológico de Gemini, en una sesión informativa con periodistas. ‘Mañana estamos entusiasmados de ver qué hará el mundo con las nuevas capacidades’. La versión de tamaño mediano del nuevo modelo AI, Gemini 1.5 Pro, funciona a un nivel similar al modelo más grande Gemini 1.0 Ultra, dijo Google.
Desde el gran éxito de OpenAI a finales de 2022 con su chatbot conversacional ChatGPT, Google ha estado tratando de demostrar que también es una fuerza en la tecnología de inteligencia artificial generativa de vanguardia, que puede crear nuevos textos, imágenes o incluso videos basados en las indicaciones del usuario. Cada vez más empresas han estado experimentando con esta tecnología, que puede utilizarse para automatizar tareas como codificar, resumir informes o crear campañas de marketing.
Google lanzó su modelo de inteligencia artificial Gemini en diciembre con tres versiones, lo que permite personalizarlo según la tarea en cuestión y ejecutarlo en todo, desde dispositivos móviles hasta centros de datos a gran escala. Gemini es la respuesta de Google a las fuerzas aliadas de Microsoft Corp. y OpenAI, que según algunos han sido más rápidas en aprovechar el actual auge de la IA, incluso entre los clientes y desarrolladores de la nube.
Ahora, Google busca atraer a esos usuarios a su ecosistema con herramientas aún más poderosas. Gemini 1.5 se puede entrenar de forma más rápida y eficiente, y tiene la capacidad de procesar una gran cantidad de información cada vez que se le solicita, según Vinyals. Por ejemplo, los desarrolladores pueden utilizar Gemini 1.5 Pro para consultar hasta una hora de vídeo, 11 horas de audio o más de 700.000 palabras en un documento, una cantidad de datos que, según Google, es la ‘ventana de contexto más larga’ de cualquier gran formato. modelo de IA a escala todavía. Gemini 1.5 puede procesar muchos más datos en comparación con los que pueden manejar los últimos modelos de IA de OpenAI y Anthropic, según Google.
En una demostración en video pregrabada para periodistas, Google mostró cómo los ingenieros le pidieron a Gemini 1.5 Pro que ingiera una transcripción en PDF de 402 páginas del alunizaje del Apolo 11 y luego le pidieron que buscara citas que mostraran ‘tres momentos divertidos’. Una de las respuestas del modelo de IA señaló que, cinco horas después de la transcripción de la misión Apolo 11, el astronauta Michael Collins le dijo al Control de la Misión: ‘Si nos retrasamos en responderle, es porque estamos comiendo sándwiches’.
En otra demostración pregrabada, los ingenieros de Google pidieron a Gemini 1.5 Pro que encontrara una escena particular en una película de Buster Keaton de 44 minutos, proporcionando al modelo de IA un bosquejo aproximado de la escena que recordaban.
Gemini encontró la escena con éxito y notó que se mostraba alrededor de 15 minutos después del video.
Google advirtió, sin embargo, que como todos los modelos generativos, las respuestas no siempre son perfectas. Gemini 1.5 Pro todavía es propenso a sufrir alucinaciones, a veces funciona lentamente y no siempre comprende las intenciones de los usuarios, lo que los obliga a hacer sus preguntas de diferentes maneras antes de que el modelo dé la respuesta correcta. Vinyals dijo que la compañía está ‘trabajando para optimizar’ el rendimiento de Gemini 1.5 para hacerlo más rápido y que ‘aún está en una etapa experimental y en una etapa de investigación’.
La compañía dijo que los desarrolladores pueden explorar Gemini 1.5 Pro utilizando AI Studio de Google, mientras que algunos clientes de la nube pueden acceder al modelo de IA en una vista previa privada en su plataforma empresarial, Vertex AI. Google también dijo el jueves que ampliaría el acceso a su Gemini 1.0 Ultra de gran escala, abriendo el modelo a un número más amplio de clientes globales en Vertex AI.
Fuente: https://www.bloomberg.com/news/articles/2024-02-15/google-rolls-out-updated-ai-model-capable-of-handling-longer-text-video?cmpid=BBD021624_TECH&utm_medium=email&utm_source=newsletter&utm_term=240216&utm_campaign=tech&sref=DPtqrPAJ