Gemma 2: todo sobre el modelo de IA abierto de Google

El evento anual de Google de este mes de mayo, Google I/O, estuvo repleto de anuncios y novedades relacionadas con la inteligencia artificial. Gemini es el modelo de IA de Google que tiene que abanderar la estrategia de este gigante de Internet respecto a esta tecnología, codiciada por todos. Y si no teníamos suficiente con Gemini, el modelo de IA disponible en cuatro versiones, y Gemini, el chatbot, surge la “familia Gemma”. Liderada por Gemma 2.

Brevemente, Gemma es la versión de Gemini de código abierto. Su propósito es ayudar a desarrolladores y otros perfiles profesionales a trabajar directamente con este modelo de inteligencia artificial. En proyectos o entornos que necesitan personalizar al máximo las características de la IA. Así, mientras que Gemini se adapta a las necesidades de prácticamente todos los perfiles, Gemma está pensada para un reducto muy específico que necesita lidiar con inteligencia artificial para experimentar con ella o desarrollar nuevos usos o utilidades.

Pues bien. En el Google I/O de 2024, Google anunció el lanzamiento de Gemma 2, “nuestra próxima generación de modelos abiertos para la innovación responsable de la IA”. Entre los cambios más destacados, una nueva arquitectura para darle más rendimiento de manera más eficiente. Y varias versiones o tamaños que se adapten el trabajo que deban desempeñar. Tal y como ocurre con las cuatro versiones actuales de Gemini.

¿Por qué Gemma si ya existe Gemini?

Le preguntamos a Gemini por qué Google ofrece su IA en dos variantes. Por un lado, tenemos Gemini, el modelo de inteligencia artificial “diseñado para ofrecer el mejor rendimiento general en una amplia gama de tareas, incluyendo la generación de texto, la traducción de idiomas, la escritura de diferentes tipos de contenido creativo y la respuesta a preguntas de forma informativa”. Entonces, ¿qué sentido tiene Gemma?

Gemma, y por tanto Gemma 2, “está enfocado en el desarrollo responsable de la IA y la accesibilidad. Es más compacto y eficiente que Gemini, lo que lo hace ideal para su ejecución en ordenadores locales con menos potencia de cálculo. También es más modificable, lo que permite a los investigadores y desarrolladores adaptarlo a sus necesidades específicas”.

Gemma 2 se basa en Gemini, la IA de Google

Podríamos hacer un símil con Gemini y una caja cerrada. Podemos interactuar con ella a través del chatbot, de las aplicaciones que lo integran, a través de los prompts de Google AI Studio o, en el caso de desarrolladores, a través de su API. Pero sigue siendo una caja cerrada. Gemma, en cambio, se puede abrir. Su código es abierto, de manera que puede modificarse a placer del investigador o desarrollador que necesite poner a prueba esta IA. Para el usuario medio, no significa nada, pero para los profesionales de este campo, ofrece infinidad de ventajas.

Y a nivel comercial, Google puede así competir con OpenAI o Anthropic con Gemini, su IA de código cerrado. Y al mismo tiempo, competir con Mistral, Hugging Face o Meta con Gemma, su IA de código abierto. Dos estrategias distintas de enfocar el desarrollo de inteligencia artificial y que tiene adeptos y detractores a ambos bandos.

Las novedades de Gemma 2

Google anunció la existencia de Gemma a primeros de este año. Pocos meses después, anuncia Gemma 2, una segunda versión con semejanzas y cambios para esta IA de código abierto. Por un lado, mantiene los dos modelos, por tamaño: Gemma 2B y Gemma 7B. Ambos modelos preentrenados y con la capacidad de recibir instrucciones e interaccionar mediante lenguaje humano. Según las pruebas realizadas por Google, su rendimiento de IA preentrenada es similar a Llama 3, la IA de Meta (antes Facebook). Y superior a Grok-1, la IA de Elon Musk.

El primer modelo está pensado para dispositivos móviles y portátiles. Y el segundo, para ordenadores y servidores. Y ambos ofrecen un buen rendimiento intentando consumir la menor cantidad de energía posible. Con todo, Google ofrece su infraestructura en la nube, Google Cloud, para trabajar con Gemma 2 en la nube con herramientas como Axolotl. O en la propia plataforma Kaggle, creada por Google para facilitar el trabajo a desarrolladores de inteligencia artificial y modelos de lenguaje. Por lo demás, Gemma 2 emplea el framework Keras 3.0, por lo que ofrece compatibilidad para otros frameworks como JAX, TensorFlow o PyTorch.

La familia Gemma

Como ocurre con Gemini, para optimizar el consumo de recursos y energía, hay que compartimentar los modelos de IA, de manera que para cada tipo de usuario o tarea hay un modelo de IA específico. En el caso de Gemma, la “familia Gemma” consta del modelo de IA base más tres modelos especializados. CodeGemma está pensado para trabajar con código. PaliGemma, es un modelo de lenguaje de visión o lenguaje y visión. Una reciente novedad que se equipara a modelos ya existentes como PaLl-3 de Meta. Su propósito es analizar y entender imágenes y videos. Y cualquier tarea relacionada con este tipo de contenido.

PaliGemma es una versión de Gemma 2 especializada en imágenes

Y, en tercer lugar, RecurrentGemma, un modelo de IA creado mediante arquitectura recurrente. Es decir, este modelo de lenguaje grande emplea redes neuronales recurrentes para procesar secuencias de texto. Es un enfoque alternativo y muy efectivo en tareas como traducción automática, generación de texto o respuesta a preguntas.

Cómo empezar a usar Gemma 2

Gemma 2 es de código abierto y gratuita. Al ser un modelo de IA enfocado al desarrollo y la investigación, Google facilita su acceso a todo el mundo. Es más. Hay distintas maneras de ponerte a probar esta IA. En su página web oficial nos ofrece tres posibilidades: a través de Kaggle, su plataforma de desarrollo de IA, a través de Vertex AI, su herramienta en la nube para realizar pruebas, desarrollar y entrenar modelos de inteligencia artificial a través de Google Cloud, y, finalmente, Hugging Face, otra popular comunidad de desarrollo de IA.

A esto hay que sumar que PaliGemma, el modelo de IA de tipo VLM (Vision-Language Model), está disponible en estas tres plataformas pero también en GitHub, en la plataforma de IA de NVIDIA y, finalmente, hay una sencilla app para interaccionar con esta IA desde Hugging Face Space. En este último recurso puedes poner a prueba las capacidades de PaliGemma para analizar y entender imágenes.