Gemini

Todas las novedades de Gemini, la IA de Google, anunciadas en el I/O 2024

Gemini ha protagonizado gran parte del evento anual de Google, el Google I/O 2024. Como protagonista o como artista invitado. Y no es de extrañar. El futuro de este gigante de Internet pasa por integrar la inteligencia artificial en su ecosistema. Algo que ya vienen haciendo Microsoft o Meta, antes Facebook, entre otros. Así que en los próximos meses veremos cambios y mejoras en los productos y servicios de Google con nuevas funciones potenciadas por Gemini. 

En el blog oficial de Google publicaron un artículo titulado “100 cosas que anunciamos en el I/O 2024”. Y aunque no todas están pensadas para el usuario final, prácticamente todas acabarán apareciendo en nuestro día a día de una u otra manera. Recordemos que podemos usar Gemini desde su app móvil y desde su web. Y poco a poco se va integrando en el buscador Google, en el asistente de Android o en aplicaciones como Mapas, Drive, Meet, Fotos o Gmail.

Veamos cuáles son las novedades de Gemini que más vamos a ver u oír próximamente. Algunas ya están a disposición de los usuarios. Estén o no a primera vista. Otras novedades, tendremos que esperar un poco para poder disfrutarlas. Como Project Astra.

La familia se amplía

Gemini está disponible en varias versiones. Hay que tener en cuenta que su consumo de recursos es elevado, por lo que Google ha preferido crear versiones específicas para determinadas tareas o plataformas. Por ejemplo, Gemini Ultra, para las tareas más complejas. Gemini Pro para la mayoría de tareas y actividades. O Gemini Nano para dispositivos móviles. 

A estos tres modelos de IA se les une Gemini Flash. Su cometido es ser una IA rápida y eficiente. Y es el modelo más ágil disponible mediante API. Su cometido es servir para tareas que requieren inmediatez, por encima de la complejidad. Por otro lado, Flash va por la versión 1.5, como Pro, mientras que Nano y Ultra permanecen en la versión 1.0. 

Gemini Flash está disponible en versión previa a través de Google AI Studio. Pero estará disponible a partir de junio en versión final estable.

Gemini 1.5 Pro para todos

La versión más importante de Gemini, Gemini Pro, amplía sus capacidades de traducción, codificación y razonamiento. Con un millón de tokens de ventana de contexto, el acceso a Gemini 1.5 Pro está disponible a través de Gemini Advanced, de pago, y Google AI Studio, para hacer pruebas en entorno controlado sin acceso a información actual. Por otro lado, Gemini Advanced permitirá procesar archivos de Google Drive o documentos PDF.

Gemini 1.5 Pro

Para los desarrolladores, Gemini 1.5 Pro puede acceder a una ventana de contexto de dos millones de tokens. Pero es necesario apuntarse a una lista de espera a través de Google AI Studio o Vertex AI. Dos millones de tokens equivalen a dos horas de video, 22 horas de audio, 60.000 líneas de código o 1,4 millones de palabras.

Gemini Live

Los modelos de IA como Gemini son capaces de dar respuestas usando lenguaje natural, como si fueran humanos. Pero por escrito. El siguiente paso es que hablen con nosotros con la misma naturalidad. ChatGPT de OpenAI ya es capaz de ello. Y Google no quiere quedarse atrás. 

Gemini Live es, precisamente, eso. Hacer que la IA de Google sea capaz de mantener contigo una conversación hablada. Fluida y natural. El objetivo es que esté integrado en dispositivos móviles. Y que los desarrolladores puedan integrarlo en sus aplicaciones y servicios. Como ocurre con los asistentes actuales, podremos elegir entre varias voces. 10 voces para empezar. Y estará disponible durante este verano. Y a través de Gemini Advanced, la suscripción de pago de Gemini.

Gemini Live

Gemini Gems 

Las gemas o gems son versiones personalizadas de Gemini. Es decir, personalizaciones para que las peticiones o tareas que le pidamos se ajusten a determinados contextos o materias. De esta manera, hacer preguntas sobre algo en particular será más fácil y no requerirá de tantas explicaciones previas. También sirve para personalizar el tipo de respuestas o hacer que el “comportamiento” o “personalidad” de Gemini sea de una manera distinta a la genérica. Por ejemplo, con más sentido del humor o imitando a cierto personaje de ficción. Por ejemplo, podemos crear gemas de cocinero, programador, asistente personal, entrenador de gimnasio…

Ampliando las funciones de Gemini

Otra novedad exclusiva de Gemini Advanced tiene que ver con la planificación de viajes. Cuando esté implementada esta función, podrás pedirle a Gemini que te organice un viaje, con actividades, lugares que visitar, platos típicos… Todo ello combinando aplicaciones de Google como Gmail, Calendario o Mapas, junto a la información que encuentre al respecto en Internet. Vendría a ser una versión automatizada y mejorada de lo que ahora podemos hacer desde Google Maps, pero manualmente. 

Google también tiene la intención de integrar Gemini en la app de Mensajes de Android. De manera que, además de hablar con tus contactos, podrás conversar con Gemini. Y también se integrará en otras aplicaciones y servicios como Calendario, Tareas o Keep.

Más integraciones. Gemini estará disponible en la app Google Fotos con la función Pregunta a Fotos o similar. Ask Photos en inglés. La idea es encontrar imágenes de tus álbumes a partir de una palabra o frase de búsqueda. Algo que puedes hacer manualmente, pero que será más automático gracias a la IA de Google. 

Esta función es similar a otra anunciada a primeros de año, Circle to Search. Rodea para buscar en castellano. Exclusiva, inicialmente, para teléfonos Samsung Galaxy y Google Pixel, emplea Gemini para buscar en Internet a partir de lo que marques dibujando encima de una imagen o texto. Poco a poco se irá extendiendo a todos los dispositivos Android

Google integrará Gemini

Google nació como un buscador de Internet. Y su buscador sigue siendo uno de sus productos estrella. No es de extrañar que Gemini haga acto de presencia. De manera escalonada, por países y empezando por Estados Unidos, el buscador de Google empezará a mostrar Gemini en forma de resúmenes, sugerencias y otras maneras de procesar los resultados que hemos buscado. Algo que ya vemos en Bing con Copilot

Gemini se integrará en el buscador Google

La infraestructura detrás de la IA

Otro gran anuncio de Google en su evento anual Google I/O fue Trillium, su sexta generación de acelerador de IA personalizada. También conocido como Tensor Processing Unit (TPU) o unidad de procesamiento tensorial. Se trata del hardware que hace posible que Gemini funcione. Gracias a estos dispositivos es posible desarrollar redes neuronales artificiales para el aprendizaje automático. Y crear así modelos de lenguaje como Gemini. 

Comparando Trillium con su antecesor, TPU v5e, su rendimiento aumenta en 4,7 veces. Además, es un 67% más eficiente en consumo de energía. Gracias a este tipo de dispositivos es posible ejecutar a través de Google Cloud los millones de peticiones que reciben los modelos de IA de Google, como Gemini 1.5 Flash o Gemma 2.

RELACIONADOS

Chica usando un reconocimiento de voz de teléfono inteligente

Detección de voz falsa mediante IA

La detección de voz falsa a gran escala presenta desafíos significativos, no solo por su complejidad tanto en las técnicas de suplantación, que en un...