2022 fue el año en que la inteligencia artificial (IA) generativa irrumpió en la conciencia pública y 2023 fue el año en que comenzó a arraigarse en el mundo empresarial. Por lo tanto, 2024 será un año crucial para el futuro de la IA, ya que los investigadores y las empresas buscan establecer cómo este salto evolutivo en la tecnología puede integrarse de la manera más práctica en nuestra vida cotidiana.
La evolución de la IA generativa ha sido un espejo de la de las computadoras, aunque en una línea temporal dramáticamente acelerada. Las monumentales computadoras mainframe centralizadas de unos pocos actores dieron paso a máquinas más pequeñas y eficientes, accesibles para empresas e instituciones dedicadas a la investigación. En las décadas que siguieron, los avances graduales derivaron en computadoras domésticas con las que los aficionados podían juguetar. Con el tiempo, el uso de las potentes computadoras personales con interfaces intuitivas sin código se extendió ampliamente.
La IA generativa ya alcanzó su fase para “aficionados” y, al igual que con las computadoras, el progreso adicional tiene como objetivo lograr un mayor rendimiento en paquetes más pequeños. En 2023 se produjo una explosión de modelos fundacionales cada vez más eficientes con licencias abiertas, comenzando con el lanzamiento de la familia Llama de modelos de lenguaje grandes (LLM) de Meta y seguido por StableLM, Falcon, Mistral y Llama 2. DeepFloyd y Stable Diffusion lograron una paridad relativa con los principales modelos patentados. Muchos modelos abiertos, mejorados con técnicas de ajuste y conjuntos de datos desarrollados por la comunidad de código abierto, ahora pueden superar a todos los modelos de código cerrado, excepto a los más potentes, en la mayoría de los puntos de referencia, a pesar de que los recuentos de parámetros son mucho más pequeños.
A medida que se acelera el ritmo del progreso, las capacidades cada vez mayores de los modelos más avanzados acapararán la mayor parte de la atención mediática. Pero es posible que los avances de mayor impacto sean los que se centren en la gobernanza, el middleware, las técnicas de entrenamiento y los pipelines de datos que hacen que la IA generativa sea más confiable, sostenible y accesible, tanto para las empresas como para los usuarios finales.
Estas son algunas de las tendencias actuales de la IA a las que habrá que prestar atención el año que viene.
Cuando la IA generativa empezó a ser conocida por las masas, los conocimientos de un empresario típico procedían sobre todo de materiales de marketing y de la cobertura informativa. La experiencia tangible (si acaso la había) se limitaba a juguetear con ChatGPT y DALL-E. Ahora que se calmaron las aguas, la comunidad empresarial comprende mucho mejor las soluciones impulsadas por IA.
El Hype Cycle de Gartner posiciona a la IA generativa de lleno en el “Pico de las expectativas sobredimensionadas”, en la cúspide de una caída hacia el “Abismo de desilusión”[1];en otras palabras, a punto de entrar en un periodo de transición (relativamente) decepcionante, mientras que el informe “State of Generated AI in the Enterprise” del primer trimestre de 2024 indicó que muchos líderes “esperan impactos transformadores sustanciales a corto plazo”.[2] La realidad probablemente se encuentre en el medio: la IA generativa ofrece oportunidades y soluciones únicas, pero no será todo para todos.
La forma en que los resultados del mundo real se comparan con la sobreexpectación es en parte una cuestión de perspectiva. Las herramientas independientes como ChatGPT suelen ocupar un lugar central en la imaginación popular, pero la integración fluida en los servicios establecidos a menudo produce más estabilidad. Antes del ciclo de sobreexpectación (hype cycle) actual, las herramientas generativas de aprendizaje automático, como “Smart Compose” (Redacción inteligente) que lanzó Google en 2018 no se anunciaban como un cambio de paradigma, a pesar de ser precursoras de los servicios de generación de texto actuales. Del mismo modo, muchas herramientas de IA generativa de alto impacto se están implementando como elementos integrados de los entornos empresariales que mejoran y complementan, en lugar de revolucionar o reemplazar, las herramientas existentes: por ejemplo, las características de “Copilot” en Microsoft Office, las características de ”Relleno generativo“ en Adobe Photoshop o los agentes virtuales en aplicaciones de productividad y colaboración.
En dónde genera primero impulso la IA generativa en los flujos de trabajo cotidianos tendrá más influencia en el futuro de las herramientas de IA que la ventaja hipotética de cualquier capacidad específica de la IA. Según una encuesta reciente de IBM a más de 1000 empleados en empresas de escala empresarial, los tres factores principales que impulsaron la adopción de IA fueron los avances en las herramientas de IA que las hacen más accesibles, la necesidad de reducir costos y automatizar procesos clave y la creciente cantidad de IA integrada en aplicaciones comerciales estándar listas para usar.
Dicho esto, la ambición de tener una IA generativa de última generación está creciendo. La próxima ola de avances se centrará no solo en mejorar el rendimiento dentro de un dominio específico, sino también en modelos multimodales que pueden tomar múltiples tipos de datos como entrada. Si bien los modelos que operan en diferentes modalidades de datos no son un fenómeno estrictamente nuevo (los modelos de texto a imagen como CLIP y los modelos speech to text como Wave2Vec existen desde hace años), generalmente solo eran unidireccionales, y estaban entrenados para realizar una tarea específica.
La próxima generación de modelos interdisciplinarios, que comprende modelos patentados como GPT-4V de OpenAI o Gemini de Google, así como modelos de código abierto como LLaVa, Adept o Qwen-VL, puede moverse libremente entre el procesamiento de lenguaje natural (PLN) y las tareas de visión artificial. Los nuevos modelos también están incorporando video : a fines de enero, Google anunció Lumiere, un modelo de difusión de texto a video que también puede realizar tareas de imagen a video o usar imágenes como referencia de estilo.
El beneficio más inmediato de la IA multimodal son las aplicaciones de IA y los asistentes virtuales más intuitivos y versátiles. Los usuarios pueden, por ejemplo, preguntar sobre una imagen y recibir una respuesta en lenguaje natural, o pedir en voz alta instrucciones para reparar algo y recibir ayudas visuales junto con instrucciones de texto paso a paso.
En un nivel superior, la IA multimodal permite que un modelo procese entradas de datos más diversas, enriqueciendo y ampliando así la información disponible para el entrenamiento y la inferencia. El video, en particular, ofrece un gran potencial para el aprendizaje holístico. “Hay cámaras que funcionan las 24 horas del día, los 7 días de la semana, y capturan lo que sucede tal como sucede, sin ningún tipo de filtro, sin intención alguna”, dice Peter Norvig, miembro distinguido de la facultad en el Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI, sigla en inglés de Human-Centered Artificial Intelligence).[3] “Los modelos de IA no han tenido ese tipo de datos antes. Esos modelos simplemente tendrán una mejor comprensión de todo”.
En los modelos de dominio específico (particularmente los LLM) es probable que ya hayamos llegado al punto de obtener rendimientos más bajos a partir de mayores recuentos de parámetros. Sam Altman, director ejecutivo (CEO) de OpenAI (se dice que su modelo GPT-4 tiene alrededor de 1.76 billones de parámetros), lo sugirió en el evento Imagination in Action del MIT en abril pasado: “Creo que estamos al final de la era en la que se emplearán estos modelos gigantes, y los haremos mejores en otros aspectos”, predijo. “Creo que se prestó demasiada atención al recuento de parámetros”.
Los modelos enormes impulsaron esta era dorada de la IA en curso, pero no están exentos de inconvenientes. Solo las empresas más grandes tienen los fondos y espacio de servidor para entrenar y mantener modelos que consumen mucha energía con cientos de miles de millones de parámetros. Según una estimación de la Universidad de Washington, entrenar a un solo modelo del tamaño de GPT-3 requiere el consumo anual de electricidad de más de 1000 hogares; un día estándar de consultas de ChatGPT rivaliza con el consumo diario de energía de 33 000 hogares estadounidenses.[4]
Mientras tanto, los modelos más pequeños requieren muchos menos recursos. Un trascendente artículo de marzo de 2022 (enlace externo a ibm.com) de Deepmind demostró que entrenar a modelos más pequeños con más datos produce un mejor rendimiento que entrenar modelos más grandes con menos datos. Así pues, gran parte de la innovación en curso en los LLM se ha centrado en obtener mayores resultados a partir de menos parámetros. Como lo demuestra el reciente avance de los modelos en el rango de 3 a 70 000 millones de parámetros, particularmente aquellos desarrollados a partir de los modelos fundacionales Llama, Llama 2 y Mistral en 2023, es posible reducir el tamaño de los modelos sin sacrificar mucho el rendimiento.
El poder de los modelos abiertos seguirá creciendo. En diciembre de 2023, Mistral lanzó “Mixtral”, un modelo de mezcla de expertos (MoE, sigla en inglés de mixture of experts) que integra 8 redes neuronales, cada una con 7 000 millones de parámetros. Mistral afirma que Mixtral no solo supera la variante de parámetros 70B de Llama 2 en la mayoría de los puntos de referencia a velocidades de inferencia 6 veces más rápidas, sino que incluso iguala o supera al GPT-3.5 de OpenAI, mucho más grande, en la mayoría de los puntos de referencia estándar. Poco después, Meta anunció en enero que ya comenzó a entrenar modelos de Llama 3 y confirmó que serán de código abierto. Aunque los detalles (como el tamaño del modelo) aún no se han confirmado, es razonable esperar que Llama 3 siga el marco establecido en las dos generaciones anteriores.
Estos avances en modelos más pequeños ofrecen tres beneficios importantes:
La tendencia hacia modelos más pequeños estará impulsada tanto por la necesidad como por el vigor empresarial, ya que los costos de la computación en la nube aumentan a medida que disminuye la disponibilidad de hardware.
“Las grandes empresas (y más de ellas) están tratando de aportar capacidades de IA internamente, y hay un poco de apremio por las GPU”, dice James Landay, subdirector y director de investigación de HAI en la Facultad de Stanford. Esto creará una gran presión no solo para aumentar la producción de GPU, sino también para que los innovadores presenten soluciones de hardware que sean más económicas y fáciles de fabricar y usar”1.
Como explica un informe de O'Reilly de finales de 2023, los proveedores de la nube actualmente soportan gran parte de la carga informática: relativamente pocos innovadores en IA mantienen su propia infraestructura, y la escasez de hardware solo elevará los obstáculos y los costos de configurar servidores on premises. A largo plazo, esto puede ejercer una presión al alza sobre los costos de la nube a medida que los proveedores actualizan y optimizan su propia infraestructura para satisfacer eficazmente la demanda de IA generativa.[5]
Para las empresas, navegar por este panorama incierto requiere flexibilidad, tanto en términos de los modelos (recurrir a modelos más pequeños y eficientes cuando sea necesario o a modelos más grandes y de mayor rendimiento cuando sea posible) como del entorno de despliegue. “No queremos limitar dónde se despliega [un modelo]”, dijo el CEO de IBM, Arvind Krishna, en una entrevista con CNBC en diciembre de 2023 (enlace externo a ibm.com), en torno a la plataforma watsonx de IBM. “Entonces, [si] quieren desplegar en una gran nube pública, así lo haremos. Si quieren desplegar en IBM, lo haremos en IBM. Si desean hacerlo por su cuenta y tienen suficiente infraestructura, lo haremos allí mismo”.
La tendencia a maximizar el rendimiento de modelos más compactos está bien atendida por la reciente producción de la comunidad de código abierto.
Muchos avances clave fueron (y seguirán siendo) impulsados no solo por nuevos modelos fundacionales, sino también por nuevas técnicas y recursos (como conjuntos de datos de código abierto) para entrenar, modificar, ajustar o alinear modelos previamente entrenados. Entre las técnicas independientes del modelo que se establecieron en 2023 podemos mencionar:
Junto con los avances paralelos en los modelos de código abierto en el espacio de 3 a 70 000 millones de parámetros, estas técnicas en evolución podrían cambiar la dinámica del ámbito de la IA al proporcionar a los actores más pequeños, como las empresas emergentes y los aficionados, capacidades sofisticadas de IA que antes estaban fuera de su alcance.
Por lo tanto, en 2024 las empresas pueden buscar la diferenciación a través del desarrollo de modelos a medida, en lugar de crear envoltorios (wrappers) en torno a servicios reempaquetados de “Big AI”. Con los datos y el marco de desarrollo adecuados, los modelos y herramientas de IA de código abierto actuales se pueden adaptar a casi cualquier escenario del mundo real, desde los usos de atención al cliente hasta la gestión de la cadena de suministro y el análisis de documentos complejos.
Los modelos de código abierto brindan a las organizaciones la oportunidad de desarrollar poderosos modelos de IA personalizados, entrenados con sus datos de propiedad exclusiva y ajustados para sus necesidades específicas, rápidamente, sin inversiones en infraestructura extremadamente costosas. Esto es especialmente relevante en dominios como el jurídico, el sanitario o el financiero, donde es posible que los modelos fundacionales no hayan aprendido el vocabulario y los tecnicismos especializados en el entrenamiento previo.
Los sectores jurídico, financiero y sanitario también son excelentes ejemplos de industrias que pueden beneficiarse de modelos lo suficientemente pequeños como para ejecutarse localmente en un hardware modesto. Mantener local el entrenamiento, la inferencia y la generación aumentada de recuperación (RAG) de la IA evita el riesgo de que se empleen datos de propiedad exclusiva o información personal confidencial para entrenar modelos de código cerrado o que estos pasen por manos de terceros. Y el uso de RAG para acceder a información relevante en lugar de almacenar todos los conocimientos directamente dentro del propio LLM ayuda a reducir el tamaño del modelo, aumentando así la velocidad y reduciendo los costos aún más.
A medida que en 2024 se siga nivelando el campo de juego de los modelos, la ventaja competitiva se verá impulsada cada vez más por pipelines de datos de propiedad exclusiva que permiten el mejor ajuste de la industria.
Con herramientas más sofisticadas y eficientes y un año de retroalimentación del mercado a su disposición, las empresas están preparadas para ampliar los casos de uso de los agentes virtuales más allá de los simples chatbots utilizados para la experiencia del cliente.
A medida que los sistemas de IA se aceleran e incorporan nuevos flujos y formatos de información, amplían las posibilidades no solo de comunicación y seguimiento de instrucciones, sino también de automatización de tareas. “2023 fue el año en que se pudo empezar a chatear con una IA. Varias empresas lanzaron algo, pero la interacción siempre se dio al escribir algo y entonces se recibía la respuesta”, dice Norvig de Stanford. “En 2024, veremos la capacidad de los agentes para hacer las cosas por uno. Hacer reservaciones, planear un viaje, conectar con otros servicios”.
La IA multimodal, en particular, aumenta considerablemente las oportunidades de una interacción fluida con agentes virtuales. Por ejemplo, en lugar de simplemente pedirle recetas a un bot, un usuario puede apuntar una cámara a un refrigerador abierto y solicitar recetas que se puedan preparar con los ingredientes disponibles. Be My Eyes, una aplicación móvil que conecta a personas invidentes y con visión deficiente con voluntarios para ayudarlas con tareas rápidas, está probando herramientas de IA que ayudan a los usuarios a interactuar directamente con su entorno a través de IA multimodal en lugar de esperar a un voluntario humano.
Las capacidades multimodales superiores y las barreras para el acceso más sencillas también abren nuevas puertas para el abuso: para los delincuentes cada vez es más fácil recurrir a imágenes, videos o audios que utilizan IA para parecer verdaderos; evitar obstáculos de privacidad; perpetuar sesgos e incluso evadir las protecciones de CAPTCHA. En enero de 2024, una ola de imágenes explícitas falsas de celebridades llegó a las redes sociales; investigaciones realizadas en mayo de 2023 indicaron que se publicaron 8 veces más audios falsos en línea en comparación con el mismo periodo de 2022.[6]
La ambigüedad en el entorno normativo puede frenar la adopción, o al menos una implementación más agresiva, a corto y mediano plazo. Existe un riesgo inherente a cualquier inversión importante e irreversible en una tecnología o práctica emergente que podría requerir una restructuración significativa, o incluso volverse ilegal, tras una nueva legislación o el cambio de vientos políticos en contra en los próximos años.
En diciembre de 2023, la Unión Europea (UE) celebró un acuerdo provisional sobre la Ley para la regulación de la inteligencia artificial (enlace externo a ibm.com). Entre otras medidas, este prohíbe el raspado indiscriminado de imágenes (image scraping, extracción de imágenes) para crear bases de datos de reconocimiento facial; los sistemas de categorización biométrica con potencial de sesgo discriminatorio; los sistemas de “puntaje social” y el uso de la IA para la manipulación social o económica. También pretende definir una categoría de sistemas de IA de “alto riesgo”, con potencial para amenazar la seguridad, los derechos fundamentales o el Estado de Derecho, que estarán sujetos a una supervisión adicional. Asimismo, establece requisitos de transparencia para lo que denomina sistemas de "IA de propósito general (GPAI)" —modelos fundacionales—, entre ellos, documentación técnica y pruebas sistémicas de adversarios.
Pero aunque algunos actores clave, como Mistral, residen en la UE, la mayor parte del desarrollo innovador de la IA está ocurriendo en Estados Unidos, donde la legislación sustantiva de la IA en el sector privado requerirá la acción del Congreso, lo que puede ser poco probable en un año electoral. El 30 de octubre, la administración Biden emitió una orden ejecutiva integral (enlace externo a ibm.com) que detalla 150 requisitos para el uso de tecnologías de IA por parte de las agencias federales; meses antes, la administración aseguró compromisos voluntarios de destacados desarrolladores de IA (enlace externo a ibm.com) para adherirse a determinadas medidas de seguridad y confianza. Especialmente, tanto California como Colorado están buscando activamente su propia legislación con respecto a los derechos de privacidad de datos de las personas con respecto a la inteligencia artificial.
China avanzó de manera más proactiva hacia las restricciones formales de la IA, prohibiendo la discriminación de precios por algoritmos de recomendación en las redes sociales y exigiendo el etiquetado claro del contenido generado por IA. La normativa prospectiva sobre la IA generativa busca exigir que los datos de entrenamiento utilizados para entrenar LLM y el contenido generado posteriormente por los modelos sean “verdaderos y precisos”, lo que los expertos han tomado para indicar medidas para censurar los resultados de los LLM.
Mientras tanto, el papel del material protegido por derechos de autor en el entrenamiento de los modelos de IA empleados para la generación de contenidos, desde modelos lingüísticos hasta generadores de imágenes y modelos de video, sigue siendo una cuestión muy controvertida. El resultado de la demanda presentada por el New York Times contra OpenAI (enlace externo a ibm.com) puede afectar significativamente la trayectoria de la legislación respecto de la IA. Las herramientas adversarias, como Glaze (enlace externo a ibm.com) y Nightshade (enlace externo a ibm.com), ambas desarrolladas en la Universidad de Chicago, surgieron en lo que puede convertirse en una especie de carrera armamentista entre creadores y desarrolladores de modelos.
Para las empresas, este creciente potencial de consecuencias jurídicas, regulatorias, económicas o de riesgo reputacional se ve agravado por lo populares y accesibles que se han vuelto las herramientas de IA generativa. Las organizaciones no solo deben contar con una política corporativa prudente, coherente y claramente articulada en torno a la IA generativa, sino también desconfiar de la IA en la sombra: el uso personal “extraoficial” de la IA en el lugar de trabajo por parte de los empleados.
También denominada “TI en la sombra” o “BYOAI” (sigla en inglés de bring your own ai; traiga su propia IA), la IA en la sombra se refiere a cuando los empleados impacientes que buscan soluciones rápidas (o simplemente quieren explorar nuevas tecnologías más rápido de lo que permite una política prudente de la empresa) implementan IA generativa en el lugar de trabajo sin solicitar autorización o tener supervisión de TI. Muchos servicios orientados al consumidor, algunos gratuitos, permiten incluso que personas sin conocimientos técnicos improvisen el uso de herramientas de IA generativa. En un estudio de Ernst & Young, el 90 % de los encuestados afirmó que usa IA en el trabajo.[7]
Ese espíritu emprendedor puede ser excelente, en un vacío, pero los empleados ansiosos pueden carecer de información relevante o perspectiva con respecto a la seguridad, la privacidad o el cumplimiento de normas. Esto puede exponer a las empresas a un gran riesgo. Por ejemplo, un empleado podría, sin saberlo, ingresar secretos comerciales en un modelo de IA accesible al público que se entrena continuamente con las entradas de los usuarios, o emplear material protegido por derechos de autor para entrenar a un modelo propio en la generación de contenidos y exponer a su empresa a acciones legales.
Como muchos de los avances en curso, esto subraya la manera en que los peligros de la IA generativa aumentan casi linealmente con sus capacidades. Un gran poder conlleva una gran responsabilidad.
A medida que avanzamos en un año crucial para la inteligencia artificial, comprender las tendencias emergentes y adaptarse a ellas es fundamental para maximizar el potencial, minimizar el riesgo y escalar de manera responsable la adopción de la IA generativa.
1 “Gartner Places Generative AI on the Peak of Inflated Expectations on the 2023 Hype Cycle for Emerging Technologies” (enlace externo a ibm.com), Gartner, 16 de agosto de 2023
2 “Deloitte's State of Generative AI in the Enterprise Quarter One Report” (enlace externo a ibm.com), Deloitte, enero de 2024
3 “What to Expect in AI in 2024” (enlace externo a ibm.com), Universidad de Stanford, 8 de diciembre de 2023
4 “Q&A: UW researcher discusses just how much energy ChatGPT uses” (enlace externo a ibm.com), Universidad de Washington, 27 de julio de 2023
5 “Generative AI in the Enterprise” (enlace externo a ibm.com), O’Reilly, 28 de noviembre de 2023
6 ”Deepfaking it: America’s 2024 election coincides with AI boom” (enlace externo a ibm.com), Reuters, 30 de mayo de 2023
7 “How organizations can stop skyrocketing AI use from fueling anxiety” (enlace externo a ibm.com), Ernst & Young, diciembre de 2023