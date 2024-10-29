Una IA de caja negra es un sistema de IA cuyo funcionamiento interno es un misterio para sus usuarios. Los usuarios pueden ver las entradas y los resultados del sistema, pero no pueden ver lo que sucede dentro de la herramienta de IA para producir esos resultados.
Considere un modelo de caja negra que evalúe los currículos de los candidatos a un puesto de trabajo. Los usuarios pueden ver las entradas, los currículos que introducen en el modelo de IA. Y los usuarios pueden ver los resultados, las evaluaciones que el modelo devuelve para esos currículos. Pero los usuarios no saben exactamente cómo llega el modelo a sus conclusiones: los factores que tiene en cuenta, cómo sopesa esos factores, etc.
Muchos de los modelos de machine learning más avanzados disponibles en la actualidad, incluidos los modelos de lenguaje de gran tamaño como ChatGPT de OpenAI y Llama de Meta, son IA de caja negra. Estos modelos de inteligencia artificial se entrenan con conjuntos de datos masivos a través de complejos procesos de deep learning, e incluso sus propios creadores no entienden completamente cómo funcionan.
Estas complejas cajas negras pueden ofrecer resultados impresionantes, pero la falta de transparencia a veces puede dificultar la confianza en sus resultados. Los usuarios no pueden validar fácilmente los resultados de un modelo si no saben lo que sucede bajo el capó. Además, la opacidad de un modelo de caja negra puede ocultar vulnerabilidades de ciberseguridad, sesgos, violaciones de la privacidad y otros problemas.
Para abordar estos retos, los investigadores de IA están trabajando para desarrollar herramientas de IA explicables que equilibren el rendimiento de los modelos avanzados con la necesidad de transparencia en los resultados de IA.
Los modelos de IA de caja negra surgen por una de estas dos razones: o sus desarrolladores los convierten en cajas negras a propósito, o se convierten en cajas negras como subproducto de su entrenamiento.
Algunos desarrolladores y programadores de IA ocultan el funcionamiento interno de las herramientas de IA antes de lanzarlas al público. Esta táctica suele estar destinada a proteger la propiedad intelectual. Los creadores del sistema saben exactamente cómo funciona, pero mantienen en secreto el código fuente y el proceso de toma de decisiones. Muchos algoritmos tradicionales de IA basados en reglas son cajas negras por este motivo.
Sin embargo, muchas de las tecnologías de IA más avanzadas, incluidas las herramientas de IA generativa, son lo que podríamos llamar "cajas negras orgánicas". Los creadores de estas herramientas no ocultan intencionalmente sus operaciones. Más bien, los sistemas de deep learning que alimentan estos modelos son tan complejos que ni siquiera los propios creadores entienden exactamente lo que sucede dentro de ellos.
Los algoritmos de deep learning son un tipo de algoritmo de machine learning que utiliza redes neuronales. Mientras que un modelo tradicional de machine learning puede utilizar una red con una o dos capas, los modelos de deep learning pueden tener cientos o incluso miles de capas. Cada capa contiene múltiples neuronas, que son paquetes de código diseñados para imitar las funciones del cerebro humano.
Las redes neuronales profundas pueden consumir y analizar conjuntos de big data sin procesar y no estructurados con poca intervención humana. Pueden absorber cantidades masivas de datos, identificar patrones, aprender de estos patrones y utilizar lo que aprenden para generar nuevos outputs, como imágenes, vídeo y texto.
Esta capacidad de aprendizaje a gran escala sin supervisión permite a los sistemas de IA hacer cosas como el procesamiento avanzado del lenguaje, la creación de contenidos originales y otras hazañas que pueden parecer cercanas a la inteligencia humana.
Sin embargo, estas redes neuronales son intrínsecamente opacas. Los usuarios (incluidos los desarrolladores de IA) pueden ver lo que sucede en las capas de entrada y salida, también llamadas "capas visibles". Pueden ver los datos que entran y las predicciones, clasificaciones u otros contenidos que salen. Pero no saben lo que sucede en todas las capas de red intermedias, las llamadas "capas ocultas".
Los desarrolladores de IA conocen ampliamente cómo se mueven los datos a través de cada capa de la red y tienen una idea general de lo que hacen los modelos con los datos que consumen. Pero no conocen todos los detalles. Por ejemplo, es posible que no sepan qué significa cuando se activa una determinada combinación de neuronas, o exactamente cómo el modelo encuentra y combina embeddings vectoriales para responder a una instrucción.
Incluso los modelos de IA de código abierto que comparten su código subyacente son, en última instancia, cajas negras porque los usuarios siguen sin poder interpretar lo que ocurre dentro de cada capa del modelo cuando está activo.
Los modelos de IA y ML más avanzados disponibles en la actualidad son extremadamente potentes, pero esta potencia tiene el precio de una menor interpretabilidad.
Los modelos de IA generativa se basan en redes neuronales complejas para responder a comandos de lenguaje natural, resolver problemas novedosos y crear contenido original, pero es difícil interpretar lo que sucede dentro de esas redes. Los modelos de IA más simples y basados en reglas son más fáciles de explicar, pero por lo general no son tan potentes ni flexibles como los modelos de IA generativa.
Por lo tanto, las organizaciones no pueden resolver el problema de la caja negra simplemente utilizando herramientas de IA tradicionales más explicables. Los modelos de IA tradicionales pueden realizar muchas funciones, pero hay algunas cosas que solo un modelo de IA avanzado puede hacer.
Aunque puede haber razones prácticas para utilizar modelos de machine learning de caja negra, la falta de transparencia puede ser un obstáculo para obtener todo el valor de estos modelos avanzados.
En concreto, la IA de caja negra plantea retos como:
Los usuarios no saben cómo un modelo de caja negra toma las decisiones que toma: los factores que sopesa y las correlaciones que establece. Incluso si los resultados del modelo parecen precisos, la validación puede ser difícil sin una comprensión clara de los procesos que conducen a esos resultados.
Sin que sus usuarios lo sepan, los modelos de caja negra pueden llegar a las conclusiones correctas por la razón equivocada. Este fenómeno a veces se denomina "efecto Clever Hans", en honor a un caballo que supuestamente podía contar y hacer aritmética simple pisando fuerte. En verdad, Hans captaba sutiles señales del lenguaje corporal de su dueño para saber cuándo era el momento de dejar de pisotear.
El efecto Clever Hans puede tener graves consecuencias cuando los modelos se aplican a campos como la sanidad. Por ejemplo, se sabe que los modelos de IA entrenados para diagnosticar la COVID-19 basándose en radiografías pulmonares alcanzan altos niveles de precisión con los datos de entrenamiento, pero su rendimiento es menor en el mundo real.
Esta brecha de rendimiento a menudo surge porque los modelos están aprendiendo a identificar la COVID en función de factores irrelevantes. Un modelo experimental "diagnosticó" la COVID basándose en la presencia de anotaciones en las radiografías en lugar de en las propias radiografías. Esto sucedió porque era más probable que las radiografías positivas para COVID se anotaran en los datos de entrenamiento del modelo, porque los médicos destacaban sus características relevantes para otros médicos1.
Si un modelo de caja negra toma decisiones equivocadas o produce sistemáticamente resultados inexactos o perjudiciales, puede resultar difícil ajustar el modelo para corregir este comportamiento. Sin saber exactamente lo que sucede dentro del modelo, los usuarios no pueden determinar exactamente dónde va mal.
Este problema plantea un reto importante en el campo de los vehículos autónomos, donde los desarrolladores entrenan sofisticados sistemas de IA para tomar decisiones de conducción en tiempo real. Si un vehículo autónomo toma la decisión equivocada, las consecuencias pueden ser fatales. Pero debido a que los modelos detrás de estos vehículos son tan complejos, comprender por qué toman malas decisiones y cómo corregirlas puede ser difícil.
Para solucionar este problema, muchos desarrolladores de vehículos autónomos complementan sus IA con sistemas más explicables, como sensores de radar y lidar. Aunque estos sistemas no arrojan luz sobre la IA en sí, sí proporcionan a los desarrolladores conocimiento sobre los entornos y las situaciones que parecen hacer que los modelos de IA tomen malas decisiones2.
Dado que las organizaciones no pueden ver todo lo que sucede en un modelo de caja negra, podrían pasar por alto las vulnerabilidades que acechan en su interior. Los modelos de IA generativa también son susceptibles a inyección de instrucciones y ataques de envenenamiento de datos, que pueden cambiar en secreto el comportamiento de un modelo sin que los usuarios lo sepan. Si los usuarios no pueden ver los procesos de un modelo, no sabrán cuándo se han alterado esos procesos.
Los modelos de caja negra pueden ser susceptibles de sesgo. Cualquier herramienta de IA puede reproducir sesgos humanos si esos sesgos están presentes en sus datos de entrenamiento o diseño. Con los modelos de caja negra, puede ser especialmente difícil determinar la existencia de sesgos o sus causas.
El sesgo puede conducir a resultados subóptimos, directamente dañinos e ilegales. Por ejemplo, un modelo de IA entrenado para seleccionar candidatos a puestos de trabajo puede aprender a filtrar a las candidatas con talento si los datos de entrenamiento son masculinos.
Algunos sistemas de justicia penal utilizan sofisticados modelos de IA para evaluar el riesgo de reincidencia de una persona. Estos modelos suelen ser cajas negras, al menos para el público, que puede no saber exactamente qué factores consideran los modelos. Si el algoritmo no es transparente, puede ser difícil confiar en sus predicciones o apelarlas cuando se equivocan3.
Ciertas regulaciones, como la Ley de IA de la Unión Europea y la California Consumer Privacy Act (CCPA), establecen reglas sobre cómo las organizaciones pueden utilizar datos personales confidenciales en herramientas de toma de decisiones con IA. Con los modelos de caja negra, puede ser difícil para una organización saber si cumple o demostrar el cumplimiento en caso de una auditoría.
La IA de caja blanca, también llamada IA explicable (XAI) o IA de caja de cristal, es lo opuesto a la IA de caja negra. Es un sistema de IA con un funcionamiento interno transparente. Los usuarios entienden cómo la IA toma los datos, los procesa y llega a una conclusión.
Los modelos de IA de caja blanca facilitan la confianza y la validación de los resultados, así como la modificación de los modelos para corregir errores y ajustar el rendimiento. Pero no es fácil convertir cada IA en una caja blanca.
Los modelos de IA tradicionales pueden hacerse transparentes compartiendo su código fuente. Pero los sofisticados modelos de machine learning desarrollan sus propios parámetros a través de algoritmos de deep learning. El simple hecho de tener acceso a las arquitecturas de estos modelos no siempre explica completamente lo que están haciendo.
Dicho esto, se están realizando esfuerzos para hacer que los modelos de IA sean más explicables. Por ejemplo, los investigadores de Anthropic están aplicando autocodificadores (un tipo de red neuronal) al LLM Claude 3 Sonnet de la empresa para comprender qué combinaciones de neuronas corresponden a qué conceptos. Hasta ahora, los investigadores han identificado combinaciones que significan cosas como el puente Golden Gate y el campo de la neurociencia4 .
El reciente modelo o1 de OpenAI comparte información sobre los pasos que da para alcanzar sus resultados, lo que puede ayudar a ilustrar cómo llega a sus respuestas. Sin embargo, no se trata de una mirada directa al interior del modelo, sino de una explicación generada por el modelo de su propia actividad. Gran parte de las operaciones del modelo, incluida la cadena de pensamiento en bruto, permanecen ocultas5.
Otros investigadores han desarrollado técnicas para ayudar a explicar cómo los modelos llegan a conclusiones específicas. Por ejemplo, la explicación local interpretable independiente del modelo (LIME) es un proceso que utiliza un modelo de machine learning independiente para analizar las relaciones entre las entradas y los resultados de una caja negra, con el objetivo de identificar las características que podrían influir en los resultados del modelo.
Estas técnicas centradas en las conclusiones suelen estar diseñadas para trabajar en modelos con entradas y resultados claramente estructuradas. Por ejemplo, LIME puede ayudar a explicar predicciones y clasificaciones, pero arroja menos luz sobre los sistemas de IA abiertos con redes neuronales.
Las organizaciones pueden optar por modelos transparentes siempre que sea posible, pero algunos flujos de trabajo requieren sofisticadas herramientas de IA de caja negra. Dicho esto, hay formas de hacer que los modelos de caja negra sean más fiables y mitigar algunos de sus riesgos.
Los modelos de código abierto pueden ofrecer a los usuarios más transparencia en su desarrollo y operaciones que las herramientas de IA de código cerrado que mantienen privadas sus arquitecturas de modelos.
Un modelo de IA generativa de código abierto podría ser en última instancia una caja negra debido a su complejas redes neuronales, pero puede ofrecer a los usuarios más conocimiento que un modelo de código cerrado.
El gobierno de la IA (los procesos, estándares y barreras que ayudan a garantizar que los sistemas y herramientas de IA sean seguros y éticos) permite a las organizaciones establecer estructuras de control sólidas para las implementaciones de IA.
Las herramientas de gobierno pueden ofrecer más conocimiento sobre las operaciones del modelo a través de la automatización de la monitorización, las alertas de rendimiento, las puntuaciones de estado y los registros de auditoría. Es posible que el gobierno de la IA no haga transparente una caja negra, pero puede ayudar a detectar anomalías y frustrar el uso inapropiado.
Los procesos y herramientas de seguridad de IA pueden ayudar a identificar y corregir vulnerabilidades en modelos de IA, aplicaciones y conjuntos de datos relacionados que los equipos de TI y seguridad podrían no encontrar por sí mismos.
Las herramientas de seguridad de IA también pueden ofrecer conocimientos sobre los datos, el modelo y el uso de aplicación de cada implementación de IA, así como sobre las aplicaciones que acceden a la IA.
Un marco de IA responsable proporciona a una organización un conjunto de principios y prácticas para hacer que la IA sea más fiable.
Por ejemplo, los pilares de confianza de IBM para la IA incluyen la explicabilidad, la imparcialidad, la solidez, la transparencia y la privacidad. Cuando los modelos de caja negra son necesarios, adherirse a un marco puede ayudar a una organización a utilizar esos modelos de una manera más transparente.
Regístrese
Más información
Descargar
Más información
IBM Security proporciona soluciones transformadoras impulsadas por IA que permiten optimizar el tiempo de los analistas al acelerar la detección de amenazas, mejorar los tiempos de respuesta y proteger la identidad de los usuarios y los conjuntos de datos, a la vez que mantienen a los equipos de ciberseguridad informados y al mando.
1 AI for radiographic COVID-19 detection selects shortcuts over signal. Nature. 31 de mayo de 2021.
2 Tesla's robotaxi push hinges on 'black box' AI gamble. Reuters. 10 de octubre de 2024.
3 Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic. 21 de mayo de 2024.
4Learning to Reason with LLMs. OpenAI. 12 de septiembre de 2024.