Chunking Adaptativo para RAG en Documentación Técnica

La granularidad del chunking es crítica para RAG en documentación técnica, y un enfoque estático rinde pobremente; la detección adaptativa basada en el tipo de contenido es fundamental.

Experimentamos con diversas estrategias de chunking al integrar un corpus extenso de documentación técnica con un modelo de lenguaje grande (LLM) a través de Retrieval Augmented Generation (RAG). Inicialmente, empleamos chunks de tamaño fijo (256, 512, y 1024 tokens) con divisiones basadas en párrafos o secciones. Los resultados fueron insatisfactorios; el LLM exhibía una pobre comprensión del contexto, especialmente al abordar preguntas que requerían la síntesis de información de múltiples chunks. Se observó que secciones de código, tablas y diagramas se fragmentaban artificialmente, perdiendo el significado inherente a su estructura.

La clave resultó ser la adaptación del tamaño del chunk en función del tipo de contenido. Para secciones de código, se emplearon chunks más pequeños (128 tokens) para preservar la sintaxis y la relación entre líneas. Tablas se mantuvieron intactas en un único chunk, independientemente de su tamaño. Para el texto narrativo, se implementó un enfoque híbrido: chunking basado en párrafos con una lógica que limita el tamaño máximo del chunk y evita separar listas o enumeraciones. Estamos explorando la posibilidad de usar LangGraph para modelar esta lógica de chunking adaptativo de forma más formalizada.

Para indexar y buscar estos chunks adaptados, implementamos Qdrant. Permite búsquedas semánticas más precisas y la capacidad de utilizar metadata para filtrar chunks por tipo de contenido (código, texto, tabla). El uso de Ollama para ejecutar localmente el LLM nos permite experimentar rápidamente con diferentes configuraciones de chunking sin incurrir en costos de API. Actualmente estamos integrando esta canalización de RAG con n8n para automatizar el proceso de indexación y actualización de la base de conocimiento.

Este enfoque iterativo de chunking, impulsado por la observación directa del comportamiento del LLM, parece ofrecer una mejora significativa en la precisión y relevancia de las respuestas generadas. El siguiente paso es evaluar la influencia de estrategias de *windowing* durante la etapa de recuperación para refinar aún más el contexto proporcionado al LLM.

Más notas

RAG no es magia n8n como lenguaje visual