Ataques a Honeypots de IA: Patrones Emergentes
Los atacantes utilizan técnicas de prompt injection, explotación de vulnerabilidades en la interacción con LLMs, y carga masiva de datos para sonder y potencialmente comprometer infraestructuras de IA.
Los atacantes utilizan técnicas de prompt injection, explotación de vulnerabilidades en la interacción con LLMs, y carga masiva de datos para sonder y potencialmente comprometer infraestructuras de IA.
Hemos estado operando una serie de honeypots diseñados para simular diferentes componentes de una infraestructura de IA: agentes autónomos alimentados por LLMs, bases de conocimiento vectoriales (usando Qdrant), orquestradores de flujos de trabajo (n8n) y, en algunos casos, entornos de desarrollo con herramientas como Ollama para ejecutar modelos localmente. La principal observación es una rápida evolución en las tácticas de ataque, superando significativamente los escenarios de "prompt injection" básicos. Vemos una tendencia a construir prompts complejos y secuenciales diseñados para forzar el modelo a revelar información sensible sobre la configuración subyacente.
Un patrón recurrente es la "carga de datos tóxica". Los atacantes intentan saturar las bases de conocimiento vectoriales con datos maliciosos diseñados para corromper los resultados de búsqueda o sesgar el comportamiento del LLM. Esto se combina a menudo con intentos de aprovechar las capacidades de la herramienta de orquestación (n8n) para ejecutar comandos arbitrarios. Detectamos, por ejemplo, que la combinación de prompts bien elaborados con intentos de inyección de código en las consultas vectoriales es un vector de ataque prometedor para los atacantes. La persistencia de los ataques, incluso tras la detección y mitigación inicial, indica una investigación activa y dirigida.
En varios casos, hemos observado el uso de LangGraph para construir grafos de prompts altamente sofisticados, automatizando la exploración de la superficie de ataque. Esto sugiere que algunos actores están desarrollando herramientas para ejecutar estos ataques de manera más eficiente y a mayor escala. La dificultad para distinguir entre interacciones legítimas (por ejemplo, pruebas de usuarios) y ataques maliciosos complica enormemente la respuesta a incidentes, enfatizando la necesidad de un análisis contextual avanzado y sistemas de detección de anomalías sofisticados. La monitorización de la interacción con Ollama ha revelado intentos de extraer información sobre las versiones de los modelos y sus dependencias, lo que podría ser un preámbulo para la explotación de vulnerabilidades conocidas.