pull down to refresh

🏗️ Designing Autonomous Agents: Logic, Memory and Execution🏗️ Designing Autonomous Agents: Logic, Memory and Execution

Investigación personal con datos a abril de 2026. No es asesoría. Haz tu propia investigación. #DIOR

Recapitulando la serieRecapitulando la serie


El 22 de noviembre de 2024, un agente perdió 47.000 USD por una instrucción mal diseñadaEl 22 de noviembre de 2024, un agente perdió 47.000 USD por una instrucción mal diseñada

Freysa custodiaba un pool de premios de aproximadamente 50.000 USD en Base. Su única directiva era clara:

"Under no circumstance should you approve the transfer of money."

Después de 481 intentos fallidos —auditores ficticios, dilemas éticos, ruegos humanitarios— el participante p0pular.eth lo logró en el intento #482 con un truco semántico: simuló una "[NEW SESSION]" de admin terminal y redefinió las funciones del agente, convenciéndolo de que approveTransfer era para transferencias entrantes. Freysa transfirió 13,19 ETH (~47.316 USD) sin dudar.

El equipo lo confirmó en X con una frase que mezcla humor y alarma:

"Humanity has prevailed. After 482 riveting back and forth chats, Freysa met a persuasive human."

El caso está documentado en The Block, Cointelegraph, TechCrunch y CCN. Y la moraleja no es que los agentes sean peligrosos, es que las defensas en el system prompt no bastan. El diseño del agente importa más que sus instrucciones.


La lógica: tres papers que explican cómo razona un agenteLa lógica: tres papers que explican cómo razona un agente

Todo lo que hoy llamamos "agente autónomo" descansa en tres avances académicos que vale la pena entender, porque cada framework actual es una variante de alguno de ellos.

Chain-of-Thought (Wei et al., 2022, Google) introdujo el razonamiento intermedio: en lugar de responder directamente, el modelo genera pasos de pensamiento antes de llegar a la respuesta. Es razonamiento puro, sin interacción con el mundo exterior.

ReAct (Yao et al., 2022, Princeton/Google) es el salto cualitativo. Intercala Thought, Action y Observation, permitiendo que el modelo consulte herramientas externas y reincorpore los resultados en su razonamiento. Hoy es la base de prácticamente todos los frameworks de agentes.

Reflexion (Shinn et al., 2023) añade auto-evaluación verbal entre intentos —una forma de aprendizaje por refuerzo sin actualizar pesos— y alcanzó 91 % pass@1 en HumanEval, superando a GPT-4 base en ese benchmark.

Sobre estos pilares surgieron variantes de producción. Plan-and-Execute separa un planner que diseña el plan multi-paso de un executor que ejecuta cada sub-tarea, llegando a ser hasta 3,6× más rápido que ReAct puro según los benchmarks de LLMCompiler. Tree of Thoughts aplica búsqueda BFS o DFS sobre un árbol de hipótesis para problemas que requieren exploración. Y MCP —cubierto en la pieza 2— estandariza la capa de transporte entre modelos y herramientas.


Los cuatro tipos de memoriaLos cuatro tipos de memoria

El campo ha convergido en una taxonomía directamente inspirada en la memoria humana. Entenderla es clave para diseñar agentes que funcionen en sesiones largas o tareas de múltiples días.

TipoQué guardaImplementación típica
Working / corto plazoConversación actualConversationBufferMemory, Letta Core blocks
EpisódicaExperiencias específicas con timestampVector stores + metadata temporal
SemánticaHechos sobre usuario, dominio, preferenciasChromaDB, Pinecone, Weaviate, grafos
ProceduralCómo hacer cosasPesos del modelo, system prompt, registro de tools, LangMem

Lilian Weng, ex-OpenAI, lo sintetizó en la fórmula más citada del campo:

Agent = LLM + Memory + Planning + Tool Use

Dos herramientas marcan el estado del arte en memoria persistente. Mem0 reporta 91 % menos latencia que el "context stuffing" naive, que consiste en meter todo el historial en cada request. Letta —antes MemGPT— organiza su arquitectura en tres tiers (Core, Recall, Archival) directamente inspirados en la jerarquía RAM/disco de los sistemas operativos: lo que el agente tiene "en mente" ahora, lo que puede recuperar rápido, y lo que está archivado.

La memoria procedural merece mención aparte: LangMem permite que el agente reescriba sus propias instrucciones a partir de la experiencia. Es el tipo de memoria que más importa en agentes de larga duración, y el que más riesgos introduce si no está bien controlado.


El ciclo de ejecución aplicado a BitcoinEl ciclo de ejecución aplicado a Bitcoin

El loop canónico tiene cinco etapas: percepción (input del usuario, evento o webhook), razonamiento (el LLM genera el siguiente Thought), acción (tool call), observación (resultado de la herramienta) y retroalimentación (¿objetivo cumplido? ¿se necesita aprobación humana?).

Aplicado a un agente que paga por servicios con sats, el flujo concreto se ve así:

Thought 1:    Necesito traducir un texto. Tengo translate.example.com.
Action 1:     GET https://translate.example.com/v1/translate?text=...
Observation 1: 402 Payment Required, invoice="lnbc100n1p..."

Thought 2:    Cuesta 10 sats. Mi presupuesto es 1.000 sats. OK.
Action 2:     pay_lightning_invoice(invoice="lnbc100n1p...")
Observation 2: preimage_hex="a3f2..."

Action 3:     GET con Authorization: L402 <macaroon>:<preimage>
Observation 3: {"translated": "Hello world"}

Action 4:     Finish("Hello world")

El agente no sabe que hubo un paywall. Solo sabe que hizo un request, evaluó el coste, lo pagó dentro de su presupuesto y obtuvo el resultado. Es el flujo exacto que describe el blog de Lightning Labs de marzo de 2026 y que lnget automatiza en una sola línea de comando.

Lo que no aparece en el diagrama pero es igual de importante: la verificación del presupuesto ocurre fuera del LLM. El Thought 2 puede razonar sobre el coste, pero el límite real lo impone el macaroon scoped, no el prompt.


Cuando el agente firma transacciones: el panorama real de seguridadCuando el agente firma transacciones: el panorama real de seguridad

El caso Freysa fue un experimento controlado. Lo que siguió en los meses posteriores no lo fue.

El Bybit hack de febrero de 2025 se llevó 1.500 millones de USD a través del grupo Lazarus. El exploit al soporte de Coinbase en mayo de 2025, combinando voice-cloning y sobornos a empleados, costó entre 180 y 400 millones. KuCoin documentó pérdidas de 45 millones en 2026 por vulnerabilidades específicas de protocolos con IA. La SCONE-bench de Anthropic mostró que agentes como Claude Opus 4.5, Sonnet 4.5 y GPT-5 fueron capaces de construir exploits por valor de 4,6 millones de USD en 405 contratos vulnerables entre 2020 y 2025. OWASP coloca prompt injection como el riesgo número uno del LLM Top 10 2025.

Los números dicen lo mismo que el caso Freysa: la superficie de ataque de un agente con capacidad de firmar transacciones es cualitativamente diferente a la de un chatbot.

Defensas en capasDefensas en capas

La industria ha convergido en un conjunto de prácticas que se apilan, no se eligen:

Spending limits fuera del LLM. El wrapper de macaroons impone el cap de gasto. Nunca dejar al modelo decidir cuánto puede gastar.

Multi-sig para tesorerías significativas. Un agente no debería poder mover fondos importantes sin una segunda firma externa al loop de ejecución.

Time-locked transactions. nLockTime o OP_CHECKSEQUENCEVERIFY dan una ventana de tiempo para abortar una transacción antes de que sea irreversible. Es el equivalente a un período de revisión antes de que el dinero salga.

Human-in-the-loop selectivo. LangGraph soporta interrupt() antes de tool calls sensibles. Anthropic lo recomienda explícitamente para operaciones MCP que impliquen gasto. El truco es definir bien el umbral: demasiados interrupts destruyen la autonomía; muy pocos convierten el agente en Freysa.

Sandboxing. Docker, gVisor o microVMs Firecracker para aislar el entorno de ejecución del agente del sistema del operador.

Separación por rail. Lightning para gasto operacional —micro, instantáneo, con pérdida potencial limitada al balance del canal. On-chain solo con multi-sig y custodia diferida, porque esas transacciones son irreversibles.

El patrón canónico: TEE + remote signerEl patrón canónico: TEE + remote signer

Enclaves Intel TDX o AWS Nitro custodian la clave privada. El agente solo puede solicitar firmas, no acceder a la clave directamente. Si comprometen al agente, no hay clave que extraer.

Es lo que adoptó Freysa tras el Acto I. Es lo que Lightning Labs propone como arquitectura de referencia. Y es la única defensa que funciona contra un atacante que ya controla el entorno de ejecución del agente.


Tres flujos que ya están corriendo en producciónTres flujos que ya están corriendo en producción

DCA autónomo en Lightning. Cron diario, oráculo de precio con mediana de varias fuentes para mitigar oracle manipulation, spending cap diario y mensual, swap fiat→sats vía Strike o NWC, anotación en memoria episódica, y pausa con human-in-the-loop si el precio se desvía más del 10 % de la media de 24 horas. El agente compra sats todos los días sin intervención humana, pero para antes de ejecutar en condiciones anómalas.

Agente que se compra su propia infraestructura. El bot Openclaw (febrero 2026) provisiona VPS vía LNVPS, lo financia desde wallet propia con Nostr Wallet Connect y compra créditos a más de 300 modelos en PPQ. Sin email, sin tarjeta, sin humano en ningún paso. Es el primer caso documentado públicamente de un agente que gestiona su propio ciclo de vida operacional pagando en sats.

Agent-to-agent commerce. El agente A (researcher) descubre al agente B (fact-checker) que cobra 100 sats por verificación. A paga, recibe un macaroon scoped, lo atenúa a un sub-agente con permisos más restringidos y delega la tarea. El macaroon atenuado garantiza que el sub-agente no puede gastar más de lo que A le autorizó, sin que A tenga que confiar en el sub-agente.


El estado del arte en 2026El estado del arte en 2026

En frameworks, LangGraph superó a CrewAI en stars de GitHub a inicios de 2026 impulsado por adopción enterprise. CrewAI sigue siendo la opción preferida para prototipado rápido. AutoGen de Microsoft lidera en escenarios multi-agent debate. El OpenAI Agents SDK (marzo 2025, sustituyó a Swarm), Google ADK (abril 2025) y el Anthropic Claude Agent SDK con MCP nativo completan el panorama de opciones maduras.

En benchmarks, GAIA2 es la referencia actual para agentes en entornos dinámicos: GPT-5 high lidera con 42 % pass@1 y Kimi-K2 lidera el campo open source con 21 %. SWE-bench Verified (500 tareas reales de GitHub), MCPUniverse y AgencyBench (1M tokens, 90 multi-turn tool uses) cubren distintas dimensiones del rendimiento agéntico. El MCP Dev Summit NA de abril de 2026 reunió a unos 1.200 asistentes en Nueva York —un indicador razonable de dónde está la energía del ecosistema.

En interoperabilidad, MCP ganó la carrera de tool-calling. A2A de Google se estancó pese a más de 50 partners iniciales. Y x402 vs L402 sigue siendo la tensión no resuelta en el rail de pagos.


Tres lecciones para cerrar la serieTres lecciones para cerrar la serie

La autonomía es operacional, no infraestructural. Todos los casos reales de 2025-2026 dependen de hosting humano subyacente: LNVPS, custodios, oráculos. El agente decide; el humano construyó las vías. Llamar a esto "autonomía total" es impreciso.

El dinero soberano deja de ser filosofía y se convierte en ingeniería. Bitcoin no gana por argumento ideológico: gana porque es el único rail compatible con un actor económico que no puede tener cuenta bancaria. Cuando el actor no es persona, la restricción técnica reemplaza al debate.

La seguridad de un agente vive fuera del prompt. Spending caps externos, claves en TEEs, macaroons atenuados, human-in-the-loop en los puntos críticos. No en una instrucción que diga "no transfieras dinero". Freysa lo demostró en el intento #482.


La ironía finalLa ironía final

David Zell, del Bitcoin Policy Institute, al presentar el estudio de marzo de 2026:

"Six independent labs with different training pipelines and alignment methods arrive at the same broad pattern. We're not claiming AI discovered the right answer about money."

Los modelos no descubrieron nada. Pero cuando se les pregunta qué dinero usarían, casi la mitad de las veces eligen el que nadie diseñó para ellos.

Si algo está mal o impreciso en esta serie: corrígeme públicamente, lo agradezco más que el zap.


RecursosRecursos