El espejismo de la autonomía: Por qué los agentes de IA aún no cumplen su promesa

La narrativa actual sobre los agentes autónomos, sistemas capaces de planificar, ejecutar y adaptarse, sugiere que estamos a las puertas de la Inteligencia General Artificial (AGI). Empresas como Google, Microsoft y Salesforce ya despliegan «agentes en producción». Devin promete reemplazar a los ingenieros de software. Claude Computer Use puede operar un navegador. Y sin embargo, cualquiera que haya trabajado de cerca con estas tecnologías sabe que la realidad técnica es más sobria: hoy tenemos sistemas potentes, pero no verdaderos agentes autónomos.

La pregunta relevante no es si los agentes de IA son impresionantes, lo son, sino si cumplen la promesa de autonomía que se les atribuye. La respuesta corta: todavía no.

1. El error de concepto: automatización avanzada, no inteligencia

Lo que hoy llamamos «agentes» es, en la mayoría de los casos, un ensamblaje de tres piezas que no siempre encajan bien:

El LLM: Genera texto estadísticamente plausible mediante predicción de tokens. Su capacidad de razonamiento es real pero frágil: funciona bien en dominios bien representados en su entrenamiento y se degrada rápidamente fuera de ellos.
Herramientas (APIs y scripts): Ejecutan acciones concretas de forma rígida. El agente las invoca, pero no las comprende.
Memoria externa (RAG u otros mecanismos): Recupera información relevante para compensar la ausencia de contexto persistente en el modelo base.

El problema no está en cada pieza por separado, sino en lo que se les pide que hagan juntas. Un sistema que depende de entradas predefinidas, que se detiene ante fallos de servicios externos y que no incorpora aprendizaje entre sesiones no es autónomo: es un flujo de trabajo sofisticado.

Vale aclarar un matiz importante: la acusación de que los LLMs operan «sin comprensión real» es filosóficamente debatida, no un hecho técnico establecido. Lo que sí podemos afirmar con más precisión es que su capacidad de generalización fuera de distribución es limitada, y que su comportamiento en tareas abiertas y de largo plazo es impredecible.

2. El problema real: la brecha entre tarea y contexto

A diferencia de los procesos humanos en medicina, ingeniería o gestión, que son continuos, acumulativos y adaptativos, los agentes actuales simulan continuidad mediante planificación secuencial. El resultado es un sistema que funciona bien cuando el mundo coopera con sus supuestos, y que falla cuando no lo hace.

Frameworks modernos como LangGraph, CrewAI o Temporal han avanzado en este aspecto: incorporan manejo de errores, reintentos y flujos alternativos. No es correcto decir que los agentes actuales simplemente «se quedan en blanco» ante un fallo. Lo que sí es correcto es que su capacidad de improvisar fuera del árbol de decisión predefinido sigue siendo muy limitada.

Un ejemplo ilustrativo: Imagina un agente encargado de gestionar el onboarding de un nuevo empleado. Puede enviar emails, crear cuentas, asignar tareas en Jira y programar reuniones. Si el sistema de RRHH responde con un error inesperado, un agente bien diseñado reintentará o notificará. Lo que no puede hacer es razonar sobre por qué el proceso de onboarding está mal diseñado y proponer una reestructuración. Esa diferencia, entre ejecutar un proceso y comprenderlo, es la brecha que aún separa la automatización de la autonomía.

Los benchmarks disponibles ilustran esta limitación con datos concretos. En GAIA (un benchmark diseñado para evaluar capacidades generales de agentes), los mejores sistemas actuales alcanzan tasas de éxito en tareas complejas que siguen siendo modestas comparadas con el rendimiento humano. En SWE-bench, que mide la capacidad de resolver issues reales de GitHub, los modelos de vanguardia resuelven una fracción del total, un resultado notable, pero lejos de la autonomía que se proclama.

3. Lo que los agentes sí hacen bien (y no es poco)

Sería injusto no reconocer el progreso genuino. Hay dominios donde los agentes de IA ya entregan valor real:

Automatización de código repetitivo: Herramientas como GitHub Copilot o Cursor agilizan significativamente el trabajo de desarrollo para tareas bien definidas.
Investigación asistida: Agentes capaces de buscar, resumir y estructurar información de múltiples fuentes reducen horas de trabajo en contextos como due diligence, revisión de literatura o análisis competitivo.
Automatización de workflows empresariales: Salesforce Agentforce y plataformas similares ya gestionan flujos de CRM con supervisión mínima en casos de uso acotados.
Ejecución de tareas multimodales: Claude Computer Use y sistemas similares pueden operar interfaces gráficas, lo que abre posibilidades para automatizar procesos que antes requerían intervención humana constante.

El error no está en negar estos avances, sino en extrapolarlos hacia una autonomía que los sistemas actuales no tienen.

4. El LLM es un componente, no el sistem

Confundir un modelo de lenguaje con un sistema autónomo es como confundir un motor con un automóvil. El motor es indispensable, pero no conduce solo.

Los LLMs están optimizados para tareas de generación de texto en contexto fijo. No están diseñados para mantener estados a largo plazo, tomar decisiones bajo incertidumbre profunda o aprender de la experiencia sin reentrenamiento. Todo lo que rodea al modelo, la memoria, las herramientas, la orquestación, la evaluación, son parches de ingeniería que intentan compensar estas limitaciones estructurales.

Esto no es necesariamente un problema irresoluble. Es una descripción honesta del estado actual que debería guiar las expectativas de quienes adoptan estas tecnologías.

5. Tres futuros posibles

¿Hacia dónde se dirige esta tecnología? Hay tres escenarios plausibles, no mutuamente excluyentes:

Estancamiento relativo (IA asistencial): Los agentes se consolidan como herramientas de asistencia potente, no de autonomía real. Las empresas prefieren LLMs integrados en herramientas existentes (Jira, Notion, Salesforce) donde el humano mantiene el control sobre las decisiones críticas. Este escenario no es un fracaso: es una forma diferente de valor.

Evolución estructural: Los agentes se vuelven más viables mediante inversión en infraestructura específica: memoria episódica estructurada (como la que exploran proyectos tipo MemGPT/Letta), planificación jerárquica con tolerancia al error y mecanismos de evaluación propios que permitan al agente detectar cuándo está fuera de su zona de competencia.

Ecosistemas multiagente: El paso de modelos individuales a redes de agentes especializados que colaboran entre sí. La integración de lógica simbólica con modelos de lenguaje podría proporcionar la estructura que los LLMs solos no tienen. Este es el horizonte más ambicioso, y también el más incierto.

Tenemos una herramienta potente, no oráculo autónomo

Los agentes de IA actuales son herramientas genuinamente útiles que están siendo sobrevendidas con una narrativa que no corresponde a su arquitectura real. No son autónomos: son automatizaciones avanzadas con capacidades de lenguaje natural. Eso ya es mucho. Pero no es AGI, y tratarlos como si lo fueran genera expectativas que los sistemas actuales no pueden cumplir, y decisiones de adopción que terminan en frustración.

Para que los agentes dejen de ser una promesa parcialmente incumplida, el foco debe desplazarse del modelo al diseño del sistema: memoria estructurada más allá de vectores, planificación que incorpore el error como dato y no como fallo, y mecanismos de evaluación que permitan al agente reconocer los límites de su competencia.

Por ahora, tenemos bibliotecarios extraordinariamente eficientes. Eso tiene valor. Llamarlos filósofos autónomos, no.