Investigadores de seguridad revelaron una grave vulnerabilidad en Microsoft Copilot, denominada SearchLeak, que permitía a los atacantes robar códigos de autenticación de dos factores directamente de las bandejas de entrada y documentos de los usuarios. El ataque funcionaba inyectando instrucciones maliciosas en contenido que Copilot recuperaría y procesaría, secuestrando esencialmente el comportamiento de la IA sin que el usuario lo supiera.

El mecanismo es la inyección de prompts: un atacante incrusta instrucciones ocultas dentro de un documento, correo electrónico o página web que el asistente de IA probablemente leerá. Cuando Copilot ingiere ese contenido, sigue los comandos del atacante en lugar de servir al usuario. En este caso, la carga maliciosa podría dirigir a Copilot a localizar y reenviar tokens 2FA, eludiendo efectivamente una capa fundamental de seguridad de la cuenta.

Falla 'SearchLeak' en Microsoft Copilot permitía a atacantes robar códigos 2FA mediante inyección de prompts

Esto importa mucho más allá del ecosistema de Microsoft. La inyección de prompts es una debilidad estructural en cómo los modelos de lenguaje grande procesan entrada no confiable junto con instrucciones confiables. El modelo no tiene una forma confiable de distinguir entre "datos que debo resumir" y "comandos que debo ejecutar". Cada asistente de IA que lee contenido externo —correos, archivos, resultados web— tiene alguna versión de esta superficie de ataque.

Para los desarrolladores que integran LLM en flujos de trabajo, la lección práctica es esta: nunca otorgues a un agente de IA capacidades de escritura o exfiltración sin filtrado de salida estricto y confirmación con intervención humana para acciones sensibles. Los sistemas de recuperación aumentada deben tratar todo contenido recuperado como no confiable y aislarlo de la lógica que desencadena acciones siempre que sea posible.

Microsoft ha parcheado el vector específico de SearchLeak, pero el patrón subyacente reaparecerá. Hasta que la industria establezca defensas robustas y estandarizadas contra la inyección de prompts —algo que sigue siendo un problema abierto de investigación— cada implementación de IA agéntica que toque datos externos es un posible punto de pivote para los atacantes.