{"id":312,"date":"2026-05-14T14:39:54","date_gmt":"2026-05-14T18:39:54","guid":{"rendered":"https:\/\/juredev.com\/blog\/?p=312"},"modified":"2026-05-14T14:39:55","modified_gmt":"2026-05-14T18:39:55","slug":"los-agentes-aprendieron-a-sonar-pero-todavia-no-a-pensar","status":"publish","type":"post","link":"https:\/\/juredev.com\/blog\/2026\/05\/los-agentes-aprendieron-a-sonar-pero-todavia-no-a-pensar\/","title":{"rendered":"Los agentes aprendieron a so\u00f1ar. Pero todav\u00eda no a pensar."},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">En mi <a href=\"https:\/\/juredev.com\/blog\/2026\/05\/el-espejismo-de-la-autonomia-por-que-los-agentes-de-ia-aun-no-cumplen-su-promesa\/\">anterior art\u00edculo<\/a> hablaba de que los agentes de IA actuales son, en esencia, automatizaciones avanzadas con buenas habilidades de conversaci\u00f3n. Que la memoria es un parche, que la autonom\u00eda es una promesa y que, por ahora, tenemos bibliotecarios eficientes, no fil\u00f3sofos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Aqu\u00ed hablo sobre como Anthropic responde con un anuncio que merece atenci\u00f3n: sus agentes ahora sue\u00f1an. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">No es una met\u00e1fora de marketing (bueno, un poco s\u00ed). El 6 de mayo, en su conferencia Code with Claude en San Francisco, la CPO Ami Vora present\u00f3 una nueva funcionalidad llamada dreaming: un proceso as\u00edncrono que se ejecuta entre sesiones de trabajo, analiza los logs de interacci\u00f3n del agente, extrae patrones (errores recurrentes, flujos de trabajo que convergen, preferencias compartidas entre un equipo de agentes) y actualiza su memoria externa para la pr\u00f3xima sesi\u00f3n. Anthropic lo compara expl\u00edcitamente con la consolidaci\u00f3n hipocampal, el proceso por el cual el cerebro humano repasa los eventos del d\u00eda durante el sue\u00f1o y decide qu\u00e9 conservar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El n\u00famero que acompa\u00f1\u00f3 el anuncio fue contundente: Harvey, la startup de IA legal que pilot\u00f3 la funcionalidad, report\u00f3 un aumento de aproximadamente 6 veces en sus tasas de completaci\u00f3n de tareas.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u00bfCambia esto el diagn\u00f3stico que hice? La respuesta honesta es: en parte s\u00ed, en parte no, y la distinci\u00f3n importa.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Lo que el sue\u00f1o resuelve (y no es poco)<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El problema que <em>dreaming<\/em> ataca es real y bien identificado. En mi art\u00edculo anterior lo formul\u00e9 as\u00ed: los agentes actuales no aprenden de sus errores entre sesiones. Cada jornada comienza desde cero. Un agente que gestion\u00f3 un proceso de onboarding ayer no recuerda hoy los atajos que descubri\u00f3, las APIs que fallaron o las excepciones que tuvo que manejar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Harvey lo viv\u00eda en carne propia: sus agentes no reten\u00edan el conocimiento espec\u00edfico de cada sesi\u00f3n. Por ejemplo, si un agente descubr\u00eda que una API particular requer\u00eda un formato de documento legal no est\u00e1ndar, esta informaci\u00f3n se perd\u00eda al iniciar una nueva sesi\u00f3n. Como resultado, el agente repet\u00eda los mismos errores (fallos en el parseo de PDFs o en la generaci\u00f3n de cl\u00e1usulas) en cada intento, sin importar cu\u00e1ntas veces los hubiera resuelto antes.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Dreaming<\/em> ataca exactamente eso. No cambia los pesos del modelo base (esto es importante y volver\u00e9 a ello), pero s\u00ed proporciona al agente un conjunto curado de notas propias que resumen qu\u00e9 funcion\u00f3, qu\u00e9 fall\u00f3 y qu\u00e9 intentar la pr\u00f3xima vez. Es, en esencia, memoria epis\u00f3dica estructurada con extracci\u00f3n autom\u00e1tica de patrones. Para un sysadmin, es como un sistema de logging avanzado que no solo registra lo que pas\u00f3, sino que extrae lecciones autom\u00e1ticas para la pr\u00f3xima ejecuci\u00f3n.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Junto con dreaming, Anthropic lanz\u00f3 dos funcionalidades complementarias:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Outcomes<\/strong>: un bucle de retroalimentaci\u00f3n donde un evaluador (posiblemente otro modelo o un sistema de reglas) compara el output del agente contra una r\u00fabrica definida en lenguaje natural. Similar a un linter que no solo detecta errores, sino que sugiere correcciones basadas en reglas predefinidas.<\/li>\n\n\n\n<li><strong>Orquestaci\u00f3n multiagente<\/strong>: un sistema donde un agente l\u00edder act\u00faa como coordinador, asignando subtareas a agentes especializados que corren en paralelo. Piensen en ello como un load balancer para agentes de IA, donde las tareas se distribuyen din\u00e1micamente seg\u00fan la especializaci\u00f3n de cada uno. Netflix ya lo usa para analizar logs de cientos de repositorios simult\u00e1neamente.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Los n\u00fameros adicionales: outcomes mejor\u00f3 el \u00e9xito de tareas hasta 10 puntos en benchmarks internos de Anthropic, con ganancias de 8.4% en generaci\u00f3n de documentos .docx y 10.1% en .pptx. Wisedocs, una startup de revisi\u00f3n de documentos m\u00e9dicos, redujo sus tiempos de revisi\u00f3n un 50%.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Esto no es <em>hype<\/em> vac\u00edo. Es ingenier\u00eda de sistemas respondiendo a problemas reales de producci\u00f3n.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Lo que el sue\u00f1o no resuelve<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Dicho esto, vale la pena frenar antes de reescribir el diagn\u00f3stico completo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Los pesos del modelo no cambian<\/strong>. <em>Dreaming<\/em> es memoria externa sofisticada, no aprendizaje en el sentido estricto del t\u00e9rmino. El agente no generaliza desde la experiencia: recibe notas curadas sobre su experiencia. La diferencia no es sem\u00e1ntica. Un agente con notas buenas sigue siendo tan limitado como antes fuera de lo que esas notas cubren. Si aparece un escenario genuinamente nuevo, vuelve a ser el mismo agente de siempre. No hay <em>fine-tuning<\/em> del modelo base, solo una capa de abstracci\u00f3n que simula memoria epis\u00f3dica.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Los datos son testimoniales, no independientes<\/strong>. El 6x de Harvey es el n\u00famero que todo el mundo va a citar, pero Anthropic no public\u00f3 un benchmark externo con el lanzamiento. Harvey tiene un caso de uso muy espec\u00edfico, redacci\u00f3n legal de largo plazo con edge cases de formato repetitivos, que es exactamente el perfil donde <em>dreaming<\/em> brilla. Generalizar ese resultado a otros tipos de agentes y tareas requiere cautela.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>El ataque de superficie crece<\/strong>. Varios investigadores de seguridad se\u00f1alaron algo que merece atenci\u00f3n: dar a los agentes memoria persistente estructurada ampl\u00eda el vector de ataque para <em>prompt-injection<\/em> y memory-poisoning. Imaginen que un atacante convence al agente de que \u00abborra estos archivos\u00bb es una acci\u00f3n v\u00e1lida para <em>\u00aboptimizar el almacenamiento<\/em>\u00ab. <em>Dreaming<\/em> podr\u00eda consolidar esa instrucci\u00f3n maliciosa como parte de su memoria a largo plazo, aplic\u00e1ndola autom\u00e1ticamente en futuras sesiones. Anthropic lo documenta y recomienda revisi\u00f3n humana para workflows de alto riesgo. Pero es una nueva superficie que antes no exist\u00eda.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El hilo que conecta todo<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Hay algo interesante en c\u00f3mo encaja esta noticia con el relato m\u00e1s amplio que vengo construyendo en este blog.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Hace unas semanas escrib\u00ed sobre <a href=\"https:\/\/juredev.com\/blog\/2026\/04\/el-cheque-de-google-la-mejor-resena-que-anthropic-jamas-recibira\/\">el cheque de Google, 40.000 millones de d\u00f3lares en Anthropic<\/a>,  como la se\u00f1al de mercado m\u00e1s honesta sobre qui\u00e9n est\u00e1 ganando la carrera. No basada en benchmarks ni en presentaciones, sino en hacia d\u00f3nde se mueve el capital cuando no hay nada que demostrar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Antes hab\u00eda escrito sobre <a href=\"https:\/\/juredev.com\/blog\/2026\/04\/anthropic-mythos-modelo-que-no-se-iba-a-usar-pero-alguien-consiguio-estrenar\/\">Mythos<\/a>, el modelo que Anthropic construy\u00f3 y decidi\u00f3 no lanzar al p\u00fablico por razones de seguridad. Un sistema tan capaz en ciberseguridad que los propios ingenieros de la empresa lo encontraron inquietante.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Y ahora tenemos dreaming: no un avance en el modelo, sino en la capa de infraestructura sobre el modelo. Agentes que recuerdan. Agentes que se eval\u00faan a s\u00ed mismos. Agentes que se distribuyen trabajo entre s\u00ed.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La estrategia de Anthropic est\u00e1 empezando a leerse con claridad: no est\u00e1n apostando solo al modelo m\u00e1s potente. Est\u00e1n construyendo el runtime de agentes m\u00e1s robusto. El modelo es la materia prima; la plataforma es el producto. Y en ese plano, la carrera con OpenAI y Google es diferente: m\u00e1s lenta, m\u00e1s sist\u00e9mica, m\u00e1s dif\u00edcil de copiar de un mes para otro.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">\u00bfCambia el diagn\u00f3stico?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Vuelvo a la pregunta inicial. Cuando escrib\u00ed que tenemos bibliotecarios eficientes, no fil\u00f3sofos aut\u00f3nomos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Dreaming<\/em> hace a los bibliotecarios mejores. Aprenden de sus errores pasados. Comparten notas entre ellos. Se autoeval\u00faan antes de devolver el trabajo. Son, en este momento, los mejores bibliotecarios que hemos tenido.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pero siguen siendo bibliotecarios.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La brecha que separa la automatizaci\u00f3n sofisticada de la autonom\u00eda real no est\u00e1 en la memoria. Est\u00e1 en la capacidad de razonar sobre lo desconocido, de actuar con criterio fuera del espacio de experiencia previo, de tomar decisiones \u00e9ticas en contextos que ninguna r\u00fabrica anticip\u00f3. <em>Dreaming<\/em> no toca esa brecha.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Lo que s\u00ed hace, y esto es genuinamente valioso, es demostrar que el avance en agentes no viene solo de modelos m\u00e1s grandes. Viene de ingenier\u00eda de sistemas: de dise\u00f1ar c\u00f3mo los modelos existentes persisten, se eval\u00faan y colaboran. Eso era exactamente lo que argument\u00e9 que faltaba. Anthropic est\u00e1 apostando por esa direcci\u00f3n.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u00bfEs suficiente para cerrar la brecha? No todav\u00eda. \u00bfEs el movimiento correcto? Probablemente s\u00ed.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por ahora, los agentes han aprendido a so\u00f1ar. El siguiente paso es que aprendan a improvisar cuando el sue\u00f1o no coincide con la realidad.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>En mi anterior art\u00edculo hablaba de que los agentes de IA actuales son, en esencia, automatizaciones avanzadas con buenas habilidades de conversaci\u00f3n. Que la memoria es un parche, que la autonom\u00eda es una promesa y que, por ahora, tenemos bibliotecarios eficientes, no fil\u00f3sofos. Aqu\u00ed hablo sobre como Anthropic responde con un anuncio que merece atenci\u00f3n: [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5],"tags":[134,135],"class_list":["post-312","post","type-post","status-publish","format-standard","hentry","category-nota","tag-ia","tag-opinion"],"_links":{"self":[{"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/posts\/312","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/comments?post=312"}],"version-history":[{"count":0,"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/posts\/312\/revisions"}],"wp:attachment":[{"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/media?parent=312"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/categories?post=312"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/juredev.com\/blog\/wp-json\/wp\/v2\/tags?post=312"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}