La era de la conversación interrumpible
La arquitectura de los grandes modelos de lenguaje ha estado atrapada en un formato de "walkie-talkie" desde sus inicios. Durante años, hemos aceptado un modelo de interacción torpe: una espera obligatoria mientras el servidor procesa el prompt, seguida de una respuesta monologada que bloquea cualquier intento de corrección o matiz en tiempo real. Esto está a punto de cambiar.
Thinking Machines Lab, la startup fundada por la ex-CTO de OpenAI, Mira Murati, ha presentado sus llamados "modelos de interacción". El concepto es disruptivo por su sencillez: la capacidad de interrumpir a la inteligencia artificial mientras habla, emulando la fluidez orgánica de una llamada telefónica. El diseño es ambicioso. Se trata de procesar la entrada del usuario y generar la salida de forma simultánea, eliminando la barrera de turno de palabra que ha definido a ChatGPT o Claude hasta hoy.
La métrica que han puesto sobre la mesa es agresiva: 0.40 segundos de latencia con su modelo TML-Interaction-Small. Si ponemos esto en perspectiva, es una cifra que busca situarlos en el límite inferior de la latencia humana en una conversación casual. Mientras que OpenAI y Google han estado reduciendo tiempos de respuesta a costa de optimizaciones de servidor y modelos más ligeros, Murati apuesta por un cambio de paradigma estructural: pasar del procesamiento secuencial al flujo bidireccional puro.
Mi lectura es distinta a la euforia inicial: reducir la latencia es una proeza técnica, pero convertirla en una experiencia de usuario natural es el verdadero reto. La tecnología de "full duplex" es, en esencia, un desafío de orquestación en tiempo real. No basta con ser rápido. La IA debe ser capaz de detectar cuándo el usuario está dudando, cuándo está haciendo una pausa reflexiva y cuándo realmente quiere tomar el control de la conversación. Fallar en esta distinción convierte a la "interrumpibilidad" en una molestia técnica más que en un avance comunicativo.
La apuesta de Murati por el control del stack
Lo interesante acá es que Thinking Machines no solo está lanzando un producto, está intentando redefinir cómo interactuamos con el silicio. Hasta ahora, la industria ha priorizado la precisión en el razonamiento lógico o la capacidad de síntesis sobre extensos documentos. Murati parece haber detectado un vacío evidente: la fricción de uso. Si la IA pretende ser un asistente personal o un copiloto en entornos operativos de alta carga —como los que enfrentan los equipos de desarrollo de software en hubs como Bogotá o Ciudad de México—, la latencia de medio segundo es el enemigo número uno.
No obstante, la prudencia es necesaria. La empresa ha optado por un lanzamiento mediante "previsualización de investigación". No hay una API abierta, no hay un producto masivo para el consumidor final, solo un horizonte de fechas para los próximos meses. Estamos ante un movimiento táctico típico de quienes intentan capturar la atención del ecosistema antes de que los gigantes de Silicon Valley, que ya tienen integraciones de voz avanzadas, decidan cerrar la brecha con una actualización de software.
La pregunta de fondo es si el mercado está listo para una IA que no solo "responde", sino que "negocia" la conversación. El modelo actual de atención del usuario es limitado; si la IA se vuelve intrusiva o errática en su intento de ser más humana, la fricción no desaparece, solo cambia de forma. La tecnología de Thinking Machines es sin duda un paso hacia adelante en términos de ingeniería, pero la verdadera prueba vendrá cuando los desarrolladores puedan integrar este flujo en aplicaciones reales.
El detalle que importa es este: si Murati logra estandarizar la interacción full-duplex, el resto de los competidores tendrá que reescribir sus arquitecturas de inferencia. La velocidad de respuesta dejará de ser una función de la infraestructura para convertirse en una característica intrínseca del modelo. Eso cambiaría radicalmente las reglas del juego para cualquier startup que esté construyendo agentes de voz. La competencia en el sector dejará de medirse por cuántos parámetros tiene el modelo y empezará a medirse por la calidad de la fricción eliminada. Estamos ante el inicio de una guerra por la inmediatez, y el primero que alcance el estándar de "conversación natural" se llevará la mayor parte del pastel.