La inteligencia artificial empezó a aparecer en todos lados: en redes, en productos, en conversaciones. Herramientas como ChatGPT o Gemini hicieron que algo que parecía lejano se volviera cotidiano.
Sin embargo, hay algo en esa conversación que suele quedar al margen. Cuando se habla de inteligencia artificial, el foco está en lo que hace: responder, predecir, generar.
Pero bastante menos en aquello que la hace posible. Porque detrás de cualquier sistema que parece inteligente, hay algo tan básico como los datos.
Y esos datos no siempre están listos para ser usados: muchas veces requieren bastante trabajo previo para que sean realmente de utilidad.
Ahí es donde aparece un rol que no suele ser protagonista: el del Data Engineer.
Mariana Navarro, data engineer en Ingenia, señala que “no es quien entrena modelos ni quien trabaja en la etapa final, sino el que trabaja en una capa anterior, representando el primer paso en la construcción de cualquier solución basada en datos”.
“En definitiva, recolecta, sanitiza y transforma los datos; por ende, establece procesos ordenados, repetibles y confiables para que la información pueda ser utilizada con propósito”, continuó.
Qué hace concretamente un Data Engineer
Navarro detalla cómo se traduce este trabajo en la práctica:
- Construye pipelines que mueven datos desde distintos sistemas —bases de datos, APIs, archivos— hacia un lugar donde puedan ser utilizados.
- Limpia información duplicada o incompleta, define reglas para que los datos sean consistentes y detecta errores antes de que se propaguen.
- Transforma los datos en información confiable cuando las fuentes principales los presentan de forma dispersa, en múltiples sistemas y con estructuras difíciles de interpretar.
- Organiza de forma estructurada y coherente, siguiendo modelos que permitan su correcta interpretación y uso a lo largo del tiempo, entendiendo qué tablas existen, cómo se relacionan y qué significado tiene cada campo.
En muchos casos, además, el Data Engineer trabaja en que todo eso ocurra de forma automática y confiable.
Navarro explica que “los datos se actualicen en tiempo real o con cierta frecuencia; que los procesos no se rompan; que haya trazabilidad para entender de dónde viene cada cosa”.
Y cada vez más aparece otra capa: la gobernanza. Establece reglas claras sobre el uso de los datos: quién accede, cómo se protegen y en qué condiciones se consideran confiables.
La IA como desafío de infraestructura
Visto así, la inteligencia artificial deja de ser solamente un problema de modelos y pasa a ser también un gran desafío de infraestructura.
Porque cuanto más se quiere hacer con datos, más importante se vuelve que esos datos estén en buenas condiciones.
El verdadero desafío no es solo incorporar inteligencia artificial, sino cuestionarse qué tan preparados estamos para sostenerla: de dónde van a provenir los datos y qué tan preparados estamos para afrontar los desafíos de utilizarlos.
No desde lo técnico en sí, sino desde algo más básico: comprender cómo se maneja la información con la que se trabaja todos los días.
En ese sentido, la ingeniería de datos no es un complemento, sino una condición.
Es la disciplina que convierte el manejo de datos en un proceso ordenado y sistemático, consiguiendo que la transformación de los datos a información sea un proceso con resultados confiables para las empresas.
No siempre es lo más visible ni lo más inmediato, pero probablemente sea una de las piezas que terminan haciendo la diferencia entre algo que funciona en teoría y algo que funciona en la práctica.
