La Inteligencia Artificial (IA) ha dejado de ser únicamente una herramienta ofensiva y se ha convertido en una nueva víctima en el panorama de la ciberseguridad.
Las tácticas de vulneración digital están evolucionando para atacar la lógica y los modelos de IA, especialmente los Grandes Modelos de Lenguaje (LLM).
La inyección de prompts, tanto directa como indirecta, se perfila como el vector de ataque principal contra los sistemas de IA.
Los adversarios están insertando instrucciones maliciosas dentro de contenido aparentemente legítimo (documentos, archivos, reportes de proveedores) para manipular los resultados o secuestrar agentes autónomos.
Estos ataques difuminan la frontera entre la vulnerabilidad y la desinformación. Al utilizar la inyección de prompts, los actores de amenazas pueden subvertir la lógica de una organización sin necesidad de afectar su infraestructura.
Otro método clave es el envenenamiento de datos, donde la información corrupta se utiliza para sesgar o comprometer los conjuntos de entrenamiento de los modelos.
Dado que muchos LLM operan a través de API de terceros, un solo conjunto de datos envenenado puede propagarse a miles de aplicaciones. La aplicación de parches tradicionales no ofrece defensa, por lo que la integridad del modelo debe mantenerse continuamente.
El crecimiento de las campañas de inyección indirecta de prompts demuestra lo rápido que esta técnica pasó de ser una teoría a una forma concreta de explotación.
A medida que los servicios de IA autónoma consumen información externa para tomar decisiones sin intervención humana, los atacantes pueden ocultar comandos en contenido común para influir en esas decisiones y llevar a acciones no autorizadas o la interrupción de procesos críticos.
Los CISO deben tratar los modelos de IA como activos críticos, asegurando todo el ciclo de vida, desde la procedencia de los datos y la gobernanza del entrenamiento hasta la validación en tiempo de ejecución.
