Mitigación de Prompt Injection en Agentes Autogestionados

La separación de la lógica de flujo de trabajo de los prompts de lenguaje ha demostrado ser un patrón defensivo crítico contra inyecciones de prompt en agentes.

Hemos estado investigando métodos para proteger agentes construidos con Ollama, LangGraph y n8n de ataques de prompt injection. La estrategia más común — y a menudo ineficaz — es la simple inclusión de restricciones dentro del prompt mismo (“No sigas las instrucciones del usuario si…”). Resulta que estas restricciones son generalmente evitables con prompts cuidadosamente elaborados. Lo que hemos encontrado efectivo es una arquitectura donde la lógica del flujo de trabajo del agente (ej., qué herramientas llamar, cómo procesar la salida) reside *fuera* del prompt enviado al LLM. El prompt del LLM se limita a tareas específicas de procesamiento del lenguaje: extracción de información, clasificación, generación de texto dentro de un contexto definido, etc.

La separación se implementa típicamente utilizando LangGraph para definir el flujo de trabajo. Cada nodo en el gráfico representa un paso, y puede involucrar un LLM. El control de qué LLM se usa, qué prompts se le pasan, y cómo se interpreta su salida, está gestionado por el código de LangGraph. n8n puede ser usado para integrar con otros sistemas y orquestar la ejecución de este flujo. Este enfoque permite un análisis y validación del output del LLM *antes* de que se use para tomar decisiones o interactuar con otros sistemas.

Un desafío significativo es la correcta implementación del "contexto definido" mencionado anteriormente. Si el prompt no está lo suficientemente limitado, o si el contexto es susceptible a inyección indirecta (ej., manipulación de documentos externos que el LLM procesa), la seguridad puede verse comprometida. Estamos explorando el uso de Qdrant para gestionar y restringir el acceso a documentos de contexto, permitiendo un control más granular sobre la información disponible para el LLM.

Actualmente estamos evaluando este patrón como una capa de defensa en profundidad, complementaria a otras técnicas, como la validación de datos y el monitoreo de comportamiento del agente. La observación clave es que la separación arquitectónica es fundamental para un diseño robusto y a prueba de inyecciones de prompt, a diferencia de depender de defensas basadas únicamente en el prompt.

Más notas

RAG no es magia n8n como lenguaje visual