Saltar al contenido
Field Notes10 de abril de 20261 min read

La temperatura 0 miente

Un modelo en temperatura 0 es determinista pero no honesto.

Un modelo en temperatura 0 es determinista pero no honesto.

Un modelo en temperatura 0 es determinista pero no honesto. Repite con confianza lo que aprendió, sin señalar los límites de su conocimiento.

La temperatura controla la aleatoriedad del muestreo de tokens. A temperatura 0, el modelo siempre elige el token más probable — reproducible, predecible, auditeable.

El problema es que "más probable" no significa "correcto". El modelo no tiene un mecanismo interno para decir "no sé". Genera el token más probable en ese contexto, incluso si ese contexto está fuera de su distribución de entrenamiento.

A veces necesitas algo de entropía para llegar a la verdad. No porque el ruido ayude — sino porque fuerza al modelo a explorar el espacio de posibilidades en lugar de colapsar siempre en la misma respuesta.

Para sistemas de razonamiento críticos: usa temperatura baja con chain-of-thought explícito y validación externa, no temperatura 0 con confianza ciega.