Los agentes aprendieron a soñar. Pero todavía no a pensar.

En mi anterior artículo hablaba de que los agentes de IA actuales son, en esencia, automatizaciones avanzadas con buenas habilidades de conversación. Que la memoria es un parche, que la autonomía es una promesa y que, por ahora, tenemos bibliotecarios eficientes, no filósofos.

Aquí hablo sobre como Anthropic responde con un anuncio que merece atención: sus agentes ahora sueñan.

No es una metáfora de marketing (bueno, un poco sí). El 6 de mayo, en su conferencia Code with Claude en San Francisco, la CPO Ami Vora presentó una nueva funcionalidad llamada dreaming: un proceso asíncrono que se ejecuta entre sesiones de trabajo, analiza los logs de interacción del agente, extrae patrones (errores recurrentes, flujos de trabajo que convergen, preferencias compartidas entre un equipo de agentes) y actualiza su memoria externa para la próxima sesión. Anthropic lo compara explícitamente con la consolidación hipocampal, el proceso por el cual el cerebro humano repasa los eventos del día durante el sueño y decide qué conservar.

El número que acompañó el anuncio fue contundente: Harvey, la startup de IA legal que pilotó la funcionalidad, reportó un aumento de aproximadamente 6 veces en sus tasas de completación de tareas.

¿Cambia esto el diagnóstico que hice? La respuesta honesta es: en parte sí, en parte no, y la distinción importa.

Lo que el sueño resuelve (y no es poco)

El problema que dreaming ataca es real y bien identificado. En mi artículo anterior lo formulé así: los agentes actuales no aprenden de sus errores entre sesiones. Cada jornada comienza desde cero. Un agente que gestionó un proceso de onboarding ayer no recuerda hoy los atajos que descubrió, las APIs que fallaron o las excepciones que tuvo que manejar.

Harvey lo vivía en carne propia: sus agentes no retenían el conocimiento específico de cada sesión. Por ejemplo, si un agente descubría que una API particular requería un formato de documento legal no estándar, esta información se perdía al iniciar una nueva sesión. Como resultado, el agente repetía los mismos errores (fallos en el parseo de PDFs o en la generación de cláusulas) en cada intento, sin importar cuántas veces los hubiera resuelto antes.

Dreaming ataca exactamente eso. No cambia los pesos del modelo base (esto es importante y volveré a ello), pero sí proporciona al agente un conjunto curado de notas propias que resumen qué funcionó, qué falló y qué intentar la próxima vez. Es, en esencia, memoria episódica estructurada con extracción automática de patrones. Para un sysadmin, es como un sistema de logging avanzado que no solo registra lo que pasó, sino que extrae lecciones automáticas para la próxima ejecución.

Junto con dreaming, Anthropic lanzó dos funcionalidades complementarias:

Outcomes: un bucle de retroalimentación donde un evaluador (posiblemente otro modelo o un sistema de reglas) compara el output del agente contra una rúbrica definida en lenguaje natural. Similar a un linter que no solo detecta errores, sino que sugiere correcciones basadas en reglas predefinidas.
Orquestación multiagente: un sistema donde un agente líder actúa como coordinador, asignando subtareas a agentes especializados que corren en paralelo. Piensen en ello como un load balancer para agentes de IA, donde las tareas se distribuyen dinámicamente según la especialización de cada uno. Netflix ya lo usa para analizar logs de cientos de repositorios simultáneamente.

Los números adicionales: outcomes mejoró el éxito de tareas hasta 10 puntos en benchmarks internos de Anthropic, con ganancias de 8.4% en generación de documentos .docx y 10.1% en .pptx. Wisedocs, una startup de revisión de documentos médicos, redujo sus tiempos de revisión un 50%.

Esto no es hype vacío. Es ingeniería de sistemas respondiendo a problemas reales de producción.

Lo que el sueño no resuelve

Dicho esto, vale la pena frenar antes de reescribir el diagnóstico completo.

Los pesos del modelo no cambian. Dreaming es memoria externa sofisticada, no aprendizaje en el sentido estricto del término. El agente no generaliza desde la experiencia: recibe notas curadas sobre su experiencia. La diferencia no es semántica. Un agente con notas buenas sigue siendo tan limitado como antes fuera de lo que esas notas cubren. Si aparece un escenario genuinamente nuevo, vuelve a ser el mismo agente de siempre. No hay fine-tuning del modelo base, solo una capa de abstracción que simula memoria episódica.

Los datos son testimoniales, no independientes. El 6x de Harvey es el número que todo el mundo va a citar, pero Anthropic no publicó un benchmark externo con el lanzamiento. Harvey tiene un caso de uso muy específico, redacción legal de largo plazo con edge cases de formato repetitivos, que es exactamente el perfil donde dreaming brilla. Generalizar ese resultado a otros tipos de agentes y tareas requiere cautela.

El ataque de superficie crece. Varios investigadores de seguridad señalaron algo que merece atención: dar a los agentes memoria persistente estructurada amplía el vector de ataque para prompt-injection y memory-poisoning. Imaginen que un atacante convence al agente de que «borra estos archivos» es una acción válida para «optimizar el almacenamiento«. Dreaming podría consolidar esa instrucción maliciosa como parte de su memoria a largo plazo, aplicándola automáticamente en futuras sesiones. Anthropic lo documenta y recomienda revisión humana para workflows de alto riesgo. Pero es una nueva superficie que antes no existía.

El hilo que conecta todo

Hay algo interesante en cómo encaja esta noticia con el relato más amplio que vengo construyendo en este blog.

Hace unas semanas escribí sobre el cheque de Google, 40.000 millones de dólares en Anthropic, como la señal de mercado más honesta sobre quién está ganando la carrera. No basada en benchmarks ni en presentaciones, sino en hacia dónde se mueve el capital cuando no hay nada que demostrar.

Antes había escrito sobre Mythos, el modelo que Anthropic construyó y decidió no lanzar al público por razones de seguridad. Un sistema tan capaz en ciberseguridad que los propios ingenieros de la empresa lo encontraron inquietante.

Y ahora tenemos dreaming: no un avance en el modelo, sino en la capa de infraestructura sobre el modelo. Agentes que recuerdan. Agentes que se evalúan a sí mismos. Agentes que se distribuyen trabajo entre sí.

La estrategia de Anthropic está empezando a leerse con claridad: no están apostando solo al modelo más potente. Están construyendo el runtime de agentes más robusto. El modelo es la materia prima; la plataforma es el producto. Y en ese plano, la carrera con OpenAI y Google es diferente: más lenta, más sistémica, más difícil de copiar de un mes para otro.

¿Cambia el diagnóstico?

Vuelvo a la pregunta inicial. Cuando escribí que tenemos bibliotecarios eficientes, no filósofos autónomos.

Dreaming hace a los bibliotecarios mejores. Aprenden de sus errores pasados. Comparten notas entre ellos. Se autoevalúan antes de devolver el trabajo. Son, en este momento, los mejores bibliotecarios que hemos tenido.

Pero siguen siendo bibliotecarios.

La brecha que separa la automatización sofisticada de la autonomía real no está en la memoria. Está en la capacidad de razonar sobre lo desconocido, de actuar con criterio fuera del espacio de experiencia previo, de tomar decisiones éticas en contextos que ninguna rúbrica anticipó. Dreaming no toca esa brecha.

Lo que sí hace, y esto es genuinamente valioso, es demostrar que el avance en agentes no viene solo de modelos más grandes. Viene de ingeniería de sistemas: de diseñar cómo los modelos existentes persisten, se evalúan y colaboran. Eso era exactamente lo que argumenté que faltaba. Anthropic está apostando por esa dirección.

¿Es suficiente para cerrar la brecha? No todavía. ¿Es el movimiento correcto? Probablemente sí.

Por ahora, los agentes han aprendido a soñar. El siguiente paso es que aprendan a improvisar cuando el sueño no coincide con la realidad.

Los agentes aprendieron a soñar. Pero todavía no a pensar.

Lo que el sueño resuelve (y no es poco)

Lo que el sueño no resuelve

El hilo que conecta todo

¿Cambia el diagnóstico?

Deja una respuesta Cancelar la respuesta