La mejor IA del 2025 está por llegar. Solo así podemos sortear, sin equivocarnos, la vorágine en la que se ha convertido el desarrollo de modelos de inteligencia artificial. Cada pocos meses, un contendiente anuncia su nuevo modelo, mejor que los anteriores. De manera que la lista de mejor IA del mercado cambia constantemente. El consuelo es que para bien. O, al menos, eso dicen las pruebas que acompañan a cada nuevo modelo de IA. Pruebas estandarizadas que muestran resultados propios y de la competencia.
Si hace poco te contábamos cuál era la mejor IA para crear imágenes, la mejor IA para programar y te dábamos a conocer los modelos de IA que vienen de China, esas listas pueden incorporar ligeros cambios a partir de las presentaciones más recientes por parte de OpenAI, Google y Anthropic. Las tres en mayo de 2025. Así, con los datos aportados por estos tres “gigantes” de la inteligencia artificial, podemos actualizar el ranking.
El primero en enseñar sus cartas fue OpenAI, anunciando Codex, su agente de IA en la nube enfocado a la ingeniería de software y la programación de código. Para cumplir con tareas complejas, utiliza codex-1, una versión optimizada del modelo OpenAI o3. Luego vino Google, que en su evento Google I/O 2025 presentó decenas de novedades. Una de ellas, Gemini 2.5 Pro, su modelo de IA más completo hasta la fecha. Anunciado en marzo pero que incorpora varias mejoras. Y mientras digeríamos los anuncios de Google, Anthropic anunció Claude 4. La última versión de su modelo de IA. Tras esto, ¿cuál es la mejor IA de la primera mitad de 2025?
La mejor IA de la primera mitad de 2025
Está claro que hay muchos más rivales en la pugna por ser la mejor IA. Pero, en esta ocasión, nos centraremos en estas tres por ser las que van en cabeza. Y, además, porque tanto Anthropic como Google comparan sus modelos con la competencia. Aunque esa comparación cada vez es más limitad, como veremos. Por su parte, OpenAI ha decidido centrarse en sus propios modelos y obviar al resto.

Así que vayamos por partes. Como vimos antes, a mitad de mayo, OpenAI presentó su herramienta Codex, potenciada por su modelo de IA codex-1. Es una versión de o3 entrenada para trabajar con código y software. En la presentación, OpenAI muestra los resultados sus tests, comparando codex-1 con o3. Y, a continuación, codex-1 con o4-mini, o3 y o1. Sus modelos de IA más potentes, con permiso de GPT-4, que es el modelo por defecto de ChatGPT. En concreto, el test empleado es SWE-bench. Y, claro está, el ganador es codex-1. Por lo tanto, se podría decir que, en ese sentido, es la mejor IA del 2025 en estos momentos.

Por su parte, Google presentó novedades en Gemini 2.5, su modelo de IA más reciente y que presentó, en una versión experimental, a finales de marzo de este año. Dos meses después, ya podemos ver la versión final de Gemini 2.5 en dos versiones: Gemini 2.5 Flash y Gemini 2.5 Pro. Mientras que codex-1 destaca en desarrollo de software, Gemini 2.5 Pro da buenos resultados en matemáticas, código y tareas multimodales. Es decir, aquellas que requieren procesar e interpretar diferentes tipos de datos a la vez (texto, imagen, video, datos). A esto hay que añadir la función Deep Think, que es el equivalente al modo Deep Research de OpenAI. Ambas sirven para realizar tareas más complejas.
No hay dos sin tres en esta competición entre IA
En las pruebas realizadas, y publicadas en su web oficial, Gemini 2.5 Pro muestra mejores resultados que OpenAI o3 y OpenAI o4-mini. Teniendo en cuenta que codex-1 es muy similar a o3, podemos deducir que Gemini 2.5 Pro superaría a codex-1 en los tests. Buscando resultados más objetivos, si es que es posible, echamos un vistazo al portal especializado LLM Stats. Sin embargo, sus datos no están actualizados, de manera que no podemos comparar Gemini 2.5 Pro con las últimas mejoras recién anunciadas. No obstante, la propuesta de Google apunta alto en esta batalla por ser la mejor IA del 2025.

Y ahora que tenemos claros los tests de OpenAI y Google, queda Anthropic. Presentó su nuevo modelo Claude 4 poco después de Google, y sus pruebas mencionan a los tres contendientes. Solo en ingeniería de software, que es el tema estrella de codex-1, Claude 4 muestra mejores resultados en la prueba estándar SWE-bench Verified. En concreto, la prueba compara Claude 4 (en su versión Opus y Sonnet, las dos más potentes) junto a la versión Sonnet anterior, y la competencia: Codex-1, o3 y GPT-4.1 de OpenAI y Gemini 2.5 Pro de Google.
En el resto de pruebas realizadas por Anthropic, Claude 4 también supera a Codex-1 y Gemini 2.5 Pro en tareas relacionadas con la programación de código a través empleando un agente de IA. Que es la clave de todo. Automatizar el proceso de programación y realizar tareas complejas sin nuestra intervención. En cambio, muestra resultados inferiores en las pruebas de competición matemática, razonamiento a nivel de graduado y razonamiento visual.
Determinar, por lo tanto, cuál es la mejor IA del 2025 resulta extremadamente difícil. No solo por la variedad de casos de uso que estas abarcan (una puede ser buena en código, pero no tanto en generación de imágenes, por ejemplo); también por la velocidad a la que avanza la industria. La mejor IA del 2025 en este mes de mayo, quizá no sea la misma en apenas unas semanas. Lo que sí parece evidente es que, al menos de momento, el pastel está entre tres contendientes: Claude, Gemini y ChatGPT.