¿Cuál es la mejor IA para programar y escribir código?

Una de las funciones para las que se están entrenando las inteligencias artificiales generativas es la función de programar, escribir código para crear una página web, una aplicación o para automatizar una tarea mediante un práctico script. Esto implica que cuando los responsables de los modelos de IA generativa que conocemos, entre las muchas pruebas realizadas, incluyen tests sobre programación o código. De manera que, a partir de esos tests, podríamos responder a la pregunta ¿cuál es la mejor inteligencia artificial o IA para programar? O dicho de otra manera, ¿cuál es la mejor IA para escribir código?

En la actualidad, hay un buen puñado de modelos LLM para elegir. La inteligencia artificial vive su mejor momento, así que grandes y pequeños de Internet rivalizan por ofrecer su mejor modelo de IA. Y aunque son inteligencias artificiales genéricas, poco a poco van avanzando para satisfacer tareas complejas relacionadas con la investigación, la búsqueda de información, las matemáticas o la programación.

Prácticamente, todo el mundo conoce ya modelos de IA como GPT (OpenAI), Gemini (Google), Claude (Anthropic) o Grok (xAI). También LlaMa (Meta) se ha dado a conocer, si hablamos de modelos abiertos. Y desde China nos llegan modelos muy eficientes a la par que complejos como DeepSeek, Qwen o Hunyuan. Pero hay muchos más. Como podemos ver en plataformas especializadas como Hugging Face, donde puedes probar modelos de IA de licencia abierta. Así que hay donde elegir si se trata de buscar la mejor IA para programar o escribir código.

Qué dicen las pruebas de la mejor IA para programar

En primer lugar, cuando se anuncia una nueva versión de los modelos de IA antes mencionados, el anuncio viene acompañado de documentos e informes que explican las pruebas realizadas a esa IA para comprobar sus destrezas en distintos campos. Si echamos un vistazo a la presentación de o3 y o4, que en el momento de escribir estas líneas son los modelos de IA más completos de OpenAI, las pruebas que se muestran solamente mencionan la inteligencia artificial de OpenAI, comparando o3 y o4 con el modelo anterior, o1.

Pero esa presentación nos puede ser para comprobar que las pruebas cubren todos los campos: resolución de problemas visuales, razonamiento matemático y, en el tema que nos interesa, tareas de codificación, edición de código y, finalmente, ingeniería de software.

Mejor IA o inteligencia artificial para programar y escribir código — Resultas pruebas realizadas por Google para presentar Gemini 2.5 (marzo de 2025)

Por su parte, el anuncio de Gemini 2.5 por parte de Google, sí incluye pruebas en las que se comparan las destrezas de la competencia. En concreto, o3-mini y GPT-4.5 de OpenAI, Claude 3.7 Sonnet de Anthropic, Grok 3 Beta de xAI y, finalmente, DeepSeek R1. ¿Y qué dicen estas pruebas o tests?

Los resultados facilitados por Google son los siguientes: en el test LiveCodeBench v5 de generación de código, resulta ganador Grok 3 Beta (79,4%) con varios intentos. Y o3-mini de OpenAI (74,1%) en un solo intento. En edición de código, la prueba Aider Polyglot da como ganador Gemini 2.5 Pro. Por su parte, la prueba SWE-bench, que implica la resolución de problemas de código de GitHub, da como vencedor Claude 3.7 Sonnet.

Comparando tests y resultados

Si comparamos los resultados de Google, de marzo de 2025, con pruebas anteriores, vemos que hay cierta coincidencia. Por ejemplo, Anthropic presentó Claude 3.7 en febrero de 2025. Entre sus tests, destaca el antes mencionado SWE-bench. Tanto el test, realizado por Google, como el realizado por Anthropic, da como ganador Claude.

Otra comparación. Las pruebas ofrecidas por Google daban ganador Grok 3 Beta en al test de generación de código LiveCodeBench. La propia xAI, en febrero de 2025, mostraba su IA como mejor inteligencia artificial para programar, por delante de o3 mini, o1, DeepSeek R1 o Gemini 2.0 Flash.

Es decir, que las pruebas ofrecidas por los responsables de los modelos de IA son honestos, ya que los resultados de sus tests concuerdan con los ofrecidos por la competencia. No queda otra. En lo que pueden diferir es en la decisión de comparar su IA con otras, como hacen la mayoría, o en centrarse en sí mismos, como ha optado OpenAI. Otro detalle a tener en cuenta es la prueba empleada para destacar las destrezas de cada IA. Como vemos, hay varias para elegir. Aunque cada una dice algo diferente. No es lo mismo generar código que editarlo. O resolver problemas de código que existen en repositorios como GitHub.

Qué dicen las pruebas externas

Además de los resultados facilitados por las partes interesadas, para conocer la mejor IA para escribir código o programar debemos buscar fuentes externas. Que, en principio, deberían ser más imparciales. Por ejemplo, el portal especializado LLM Stats. Ahí aparecen los principales modelos de inteligencia artificial y distintas pruebas que se han realizado para conocer la fiabilidad de una IA frente a problemas matemáticos, resoluciones de problemas, análisis de datos o, el caso que nos ocupa, problemas de código o programación.

Destacan dos tests: Aider Polyglot, que consiste en resolver problemas de código en seis lenguajes distintos. En concreto, C++, Go, Java, JavaScript, Python y Rust. El segundo, SWE-Bench, que busca arreglar, de manera autónoma, bugs y errores de código encontrados en GitHub, uno de los repositorios de código más conocidos. En el primero se tenían que solucionar 225 problemas. Y, en el segundo, 500 errores de código.

En el ranking de Aider Polyglot del 5 mayo de 2025,resultan ganadores o3 y o4-mini, seguidos de Gemini 2.5 Pro, o3-mini, DeepSeek-R1, GPT-4.1, DeepSeek V3 y Gemini 2.5 Flash. Los otros tres puestos los ocupan GPT-4.1 mini, GPT-4o y GPT-4.1 nano. En definitiva, que OpenAI, Google y DeepSeek pueden estar orgullosos de sus modelos de IA en lo que se refiere a resolver problemas de programación en los principales lenguajes.

En el ranking de SWE-Bench del 5 de mayo de 2025, la mejor IA para programa o para escribir código es Claude 3.7 Sonnet. Le siguen o3 y o4-mini, seguidas de Gemini 2.5 Pro, GPT 4.1, o3-mini, DeepSeek R1 y Claude 3.5 Sonnet. De nuevo, OpenAI, Google y DeepSeek aparecen en la lista, aunque también lo hace Anthropic, ocupando la primera plaza y otras dos del Top 10.

Otro test que podemos usar como referencia es LMC-Eval (Logical Math Coding Eval). Aunque, en esta ocasión, consiste en resolver 100 problemas de matemáticas que implican tener nociones de lógica y programación. En un test realizado en abril de 2025, colocaba en primer lugar o1 y o3-mini, seguido de Claude 3.7 Sonnet, GPT-4.5, Gemini 2.0 Flash, Claude 3.5 Sonnet, GPT-40 y Mistral Large.

La mejor inteligencia artificial para programar

Como suele ser habitual, no hay una única respuesta a esta pregunta. En primer lugar, las nuevas versiones de estos modelos de IA se ven superadas cada pocos meses. Ya sea por la competencia o por sus sucesoras. Y, en segundo lugar, cada test da un resultado diferente, lo que significa que cada modelo de inteligencia artificial supera al resto en determinadas tareas, pero no hay un único ganador en el campo de la programación. Depende de los trabajos que queramos que realice la IA, que elijamos una u otra.

Mientras que los modelos de OpenAI y Google resuelven muy bien problemas de código en varios lenguajes, cuando se trata de corregir código y arreglar bugs reales, Anthropic tiene un modelo superior, si bien OpenAI y Google tampoco se quedan atrás.

Por último, tampoco podemos obviar que, además del propio modelo de IA, también debemos evaluar la idoneidad del chatbot o asistente inteligente que vamos a usar para introducir los datos y hacer las peticiones a la IA. En este sentido, herramientas como Copilot o Perplexity, mejoran la experiencia de uso de la inteligencia artificial al incorporar características propias. O al integrarse con otras plataformas y herramientas de programación.