Latencia: Local vs. APIs Externas, una Comparación Cruda

La inferencia local, incluso con hardware modesto, consistentemente superó a APIs externas para tareas de LLMs en un escenario de producción simulado.

Hemos estado midiendo meticulosamente la latencia de inferencia para diversas tareas de LLM en nuestro entorno de desarrollo. El objetivo era cuantificar la diferencia, si la hubiera, entre el uso de una API externa (un proveedor de LLM popular) y ejecutar el mismo modelo localmente utilizando Ollama. Inicialmente, esperábamos que las APIs externas demostraran una ventaja debido a la optimización de la infraestructura de proveedores, pero los resultados fueron contundentes: la latencia de la inferencia local fue, en promedio, un factor 2x a 3x más rápida, incluso utilizando un servidor con recursos limitados (8GB RAM, GPU modesta). La variabilidad de las APIs externas también fue significativamente mayor.

La configuración de pruebas incluyó tareas simples de clasificación de texto y recuperación de información empleando LangGraph para construir flujos de trabajo. Además, para experimentar con la búsqueda semántica y recuperación de vectores, integramos Qdrant como base de datos vectorial. En cada caso, el tiempo total de ejecución (desde la solicitud inicial hasta la respuesta final) fue sustancialmente menor cuando se ejecutaba localmente. Esta diferencia es crítica en escenarios donde la baja latencia es un requisito fundamental. n8n se utilizó para orquestar algunas pruebas automatizadas y nos ayudó a obtener datos de latencia más consistentes.

Es fundamental entender que esto no es una crítica a la calidad de los LLMs ofrecidos por los proveedores. Más bien, destaca la penalización de rendimiento inherente a la transferencia de datos a través de la red y la dependencia de la disponibilidad y rendimiento de un servicio externo. El costo de los LLMs se vuelve, entonces, un balance entre el costo computacional de ejecutarlo localmente y el costo de la latencia introducida por APIs externas.

Finalmente, concluimos que, para aplicaciones sensibles a la latencia, la inferencia local representa una alternativa viable, especialmente considerando la creciente accesibilidad de modelos de código abierto y la mejora constante de las capacidades de inferencia en hardware de consumo. La infraestructura local permite un control total sobre la latencia y la escalabilidad.

Más notas

RAG no es magia n8n como lenguaje visual