Poner fin a la corrupción de datos es allanar el camino para la IA organizacional personalizada
Por Rick Vanover, vicepresidente de Estrategia de Producto de Veeam
La IA se ha integrado rápidamente en la mayoría de las organizaciones de una forma u otra. Ya sea a través de cuentas empresariales para los populares Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés) o de pilotos personalizados, se está convirtiendo rápidamente en un «empleado» de confianza. Pero, aunque parezca tener todas las respuestas, como cualquier otro empleado nuevo, la IA no lo sabe todo. Las empresas pueden estar recibiendo resultados que parecen excelentes a primera vista, pero con demasiada frecuencia se generaron a partir de «datos desordenados»; una apariencia limpia que esconde un interior deteriorado.
Lo cierto es que la IA no puede crear algo de la nada. Sus resultados dependen únicamente de que pueda acceder a datos relevantes, válidos y sin comprometer la integridad. Si se pierde en un mar de datos irrelevantes, se aferra a cualquier cosa que encuentre que sea remotamente relevante para sus consultas; esto no sólo genera resultados inexactos, sino que además representa un riesgo real para la seguridad y la regulación. Con todo, si los negocios abordan esto de forma proactiva para trazar la mejor ruta con estos datos (alineándose con las necesidades más amplias de gestión de riesgos y dando a la IA sólo los datos necesarios), podría optimizar los resultados.
La IA es lo que «come»
El hecho de que la IA necesite acceso a datos válidos, sin concesiones y relevantes, es precisamente la razón por la que el 95% de los pilotos de GenAI siguen fracasando, según MIT[1], pues los datos se extraen de una fuente contaminada por datos redundantes, obsoletos o triviales (ROT). El aumento de los datos se ha disparado, en parte gracias a la IA, y esto se ha descontrolado. Hoy en día, la mayoría de los negocios carecen de una visión completa de sus datos, y los ROT se acumulan en segundo plano. Ahora, conforme las organizaciones empiezan a aprovechar sus datos a través de la IA, esos mismos datos ROT frenan su desarrollo.
La IA estándar, como los LLM, puede ser intuitiva y relativamente fácil de implementar con medidas de seguridad integradas, pero la IA interna personalizada requiere un enfoque más práctico. A menudo, tiene dificultades para gestionar las complejas reglas de negocio y los ajustes constantes necesarios para acceder a datos limpios, extrayendo en su lugar datos ROT y cancelando los programas piloto antes de que comiencen. ¿Por qué? Porque los datos ROT hacen precisamente eso: deterioran los resultados de la IA.
Sin medidas de seguridad firmes y precisas que rodeen los datos que la IA puede extraer, las IA personalizadas inevitablemente terminan incorporando ROT, lo que genera resultados lentos e incorrectos. La mayoría de los pilotos probablemente fracasan no porque no tengan los datos que necesitan, sino porque las organizaciones no saben hacia dónde dirigir su IA. Y, desafortunadamente para ellas, la corrupción se propaga. No sólo perjudica a sus pilotos de IA; si no se aborda, se filtrará a problemas más amplios de gestión de riesgos.
Por otro lado, la desconexión en la regulación global de la IA puede haber hecho que las empresas sientan que tienen una tarea menos que gestionar. No obstante, este alivio a corto plazo tiene consecuencias a largo plazo. Sin las exigencias de regulación y cumplimiento que prioricen la gobernabilidad, se ha pasado por alto la comprensión y la visibilidad de sus datos: de acuerdo con Cybersecurity Insiders[2], el 92% de los negocios aún carecen de visibilidad de sus identidades de IA. Esto frena los proyectos piloto de IA y perjudica a las organizaciones en lo que respecta al cumplimiento y la gobernabilidad porque, si no sabe qué datos extrae su IA, cuando la regulación madure inevitablemente tendrá que esforzarse para ponerse al día.
Esta falta de visibilidad también podría tener un profundo impacto en la ciberseguridad. Supongamos que, en lugar de sentar las bases para generar visibilidad de datos y eliminar datos corruptos, se ha abierto el acceso a todos los datos para la IA, como una especie de pase de acceso universal. Esto no solo crea una IA lenta –y probablemente ineficaz–, sino que también crea una forma de privilegio centralizado que, en las manos equivocadas, podría ser un vector de ataque eficaz. A medida que las empresas se familiarizan con este problema, también lo hacen los atacantes. Y en cuanto perfeccionan un método para atacar las herramientas de IA, pueden usarlas como punto de aterrizaje para atacar toda la infraestructura, tal como lo harían hoy con identidades con privilegios excesivos.
Eliminar los datos corruptos hoy para impulsar el crecimiento mañana
En lugar de esperar a que los problemas de ciberseguridad y cumplimiento normativo emerjan por completo, lo mejor es cortarlos de raíz.
Para controlar ese cúmulo desmesurado de datos corruptos antes de que se convierta en un problema, ilumine el estado actual de sus datos, exponiendo e cuestionando los datos que deben eliminarse, tanto para mejorar los resultados de la IA como para proteger su negocio de futuros problemas. Con una mejor comprensión de sus datos, puede implementar las medidas de seguridad adecuadas para sus proyectos de IA personalizados, garantizando que los datos que extrae no sólo sean relevantes, sino también seguros y, con suerte, convertir esos proyectos piloto de IA en éxitos en el camino.
Cuando la regulación y gobernabilidad se adapten inevitablemente a la IA, habrá una palabra mágica: explicabilidad. Y a menos que conozca los pormenores de sus datos e IA, se quedará sin palabras para explicar cómo funciona realmente. No será una tarea fácil: tan solo el año pasado, creamos, capturamos, copiamos y consumimos 181 ZB de datos a nivel mundial (según indica el WEF[3]), pero como dice el dicho, “cuando el rio suena, agua lleva”; quizás sea hora de tomar medidas.




Deja un comentario