Tenable reveló una serie de vulnerabilidades críticas en dos de las plataformas de IA más utilizadas del mundo: ChatGPT de OpenAI y Gemini de Google.
Las fallas, identificadas en dos investigaciones independientes, demuestran que los modelos de inteligencia artificial pueden convertirse no solo en objetivos, sino también en vehículos de ataque capaces de exfiltrar datos sensibles sin que los usuarios lo perciban.
En el caso de ChatGPT, los investigadores descubrieron siete vulnerabilidades reunidas bajo el nombre de HackedGPT, algunas de las cuales persistían incluso en ChatGPT-5.
Estas fallas permiten evadir mecanismos de seguridad, robar datos personales y comprometer de forma persistente la memoria del sistema mediante técnicas como la inyección indirecta de prompt, los ataques de 0-clic y 1-clic, la ocultación de instrucciones maliciosas, la omisión de validaciones de enlaces y la inyección de memoria persistente, que puede almacenar órdenes dañinas y ejecutarlas en futuras sesiones.
Los ataques pueden ocurrir silenciosamente: desde que ChatGPT analiza una página web comprometida hasta que el usuario hace clic en un enlace malicioso, o incluso sin que realice ninguna acción adicional.
Según Tenable, estas técnicas permiten a los atacantes acceder a historiales privados, memorias almacenadas o servicios conectados como Google Drive o Gmail.
“HackedGPT expone una debilidad fundamental en cómo los modelos juzgan qué información es confiable”, dijo Moshe Bernstein, ingeniero de investigación senior en Tenable.
“Individualmente parecen fallas pequeñas, pero juntas forman una cadena de ataque completa, desde la inyección y la evasión hasta el robo y la persistencia”, agregó.
En paralelo, Tenable identificó tres vulnerabilidades en Google Gemini, denominadas Gemini Trifecta, ya corregidas pero consideradas de alto impacto.
Estas fallas permitían manipular el comportamiento de Gemini e incluso extraer datos sensibles como ubicación, historiales o memorias guardadas.
Los ataques afectaban tres componentes principales:
- En Gemini Cloud Assist, podían insertarse entradas maliciosas en registros que luego eran interpretados como instrucciones válidas.
- En la personalización de búsquedas, los atacantes podían inyectar consultas en el historial del navegador, utilizado como contexto confiable por Gemini.
- En la herramienta de navegación, era posible engañar al sistema para enviar datos privados a servidores externos controlados por atacantes.
Según Tenable, el problema común era que Gemini no diferenciaba adecuadamente entre entradas legítimas y contenido manipulado, permitiendo que datos contaminados actuaran como contexto confiable.
“La Gemini Trifecta demuestra cómo las plataformas de IA pueden ser manipuladas de formas invisibles para los usuarios”, explicó Liv Matan, investigador senior de seguridad en Tenable.
Aunque las fallas de Gemini ya fueron corregidas y varias de las vulnerabilidades de ChatGPT fueron mitigadas, Tenable advierte que las herramientas de IA deben tratarse como superficies de ataque activas, no como asistentes pasivos.
Ambos casos muestran un patrón común: la IA puede ser engañada mediante entradas ocultas, y las funciones de navegación, memoria y contexto representan puntos críticos que pueden ser explotados para filtrar información.
Tenable recomienda a los equipos de seguridad auditar integraciones de IA, monitorear conductas inusuales, reforzar defensas contra la inyección de prompt y establecer controles de gobernanza y clasificación de datos.
“Asegurar la IA no consiste solo en corregir fallas individuales”, enfatizó Matan.
“Se trata de anticipar cómo los atacantes pueden explotar las mecánicas internas de estos sistemas y construir defensas en capas que eviten que pequeñas grietas se conviertan en exposiciones sistémicas”, finalizó.
