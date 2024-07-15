En la carrera por dominar la IA, lo más grande suele ser mejor. Más datos y más parámetros crean sistemas de IA más grandes, que no solo son más potentes, sino también más eficientes y rápidos, y generalmente generan menos errores que los sistemas más pequeños.
Las empresas tecnológicas que acaparan los titulares de las noticias refuerzan esta tendencia. "El sistema que acabamos de implementar es, en cuanto a escala, casi tan grande como una ballena", dijo el director de tecnología de Microsoft, Kevin Scott, sobre el superordenador que impulsa Chat GPT-5. Scott estaba hablando sobre la última versión del chatbot de IA generativa de Open AI en el reciente evento Build de la compañía a finales de mayo. “Y resulta que se puede construir una cantidad increíble de IA con una supercomputadora del tamaño de una ballena”.
Mientras tanto, la capitalización bursátil de Nvidia alcanzó la marca de 3 billones de USD en junio. El fabricante de chips ha crecido a un ritmo vertiginoso, ya que sus chips alimentan modelos de lenguaje cada vez mayores, superordenadores y los centros de datos que proliferan en todo el mundo.
Pero, ¿más grande es siempre mejor? Depende de su perspectiva. Para las empresas que desarrollan modelos de lenguaje de gran tamaño, la escala es una ventaja en la mayoría de los casos. Pero a medida que las empresas tratan de separar el bombo publicitario de los aspectos en los que la IA puede aportar un verdadero valor añadido, no está claro que unos modelos de lenguaje cada vez más grandes vayan a conducir siempre a mejores soluciones para las empresas.
En el futuro, "no necesitaremos modelos 100 veces superiores a los que tenemos hoy para extraer la mayor parte del valor", dijo Kate Soule, directora del programa de investigación de IA generativa de IBM en un episodio reciente del pódcast Mixture of Experts de IBM. Muchas empresas que ya obtienen un retorno de sus inversiones en IA la utilizan para tareas como la clasificación y la resumen, que ni siquiera emplean toda la capacidad de los modelos de lenguaje actuales.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
"Más grande es mejor" proviene de las leyes de escalado de datos que entraron en la conversación con un artículo de 2012 de Prasanth Kolachina que aplicaba las leyes de escalado a machine learning. Kolachina y sus colegas demostraron que a medida que los modelos se hacían más grandes, generalmente se volvían más precisos y funcionaban mejor. En 2017, Hestness et al. demostraron que la escalabilidad de deep learning también es predecible empíricamente. Posteriormente, en 2020, Kaplan et al. demostraron que las leyes de escalado de datos también eran válidas para los modelos de lenguaje.
Aunque estas leyes son útiles para los proveedores de modelos de lenguaje que buscan crear inteligencia artificial general, no está nada claro que las empresas necesiten esta escala de inversión o IA para obtener la mayor parte del valor.
"Solo porque conozca la forma más rentable de entrenar un modelo de enésimo grado de tamaño, ¿los beneficios reales que obtiene de ese modelo justificarán los costes?" dijo Soule de IBM. "Esa es una pregunta completamente diferente que las leyes de escalado no responden".
El coste de los datos está aumentando, ya que los datos de alta calidad utilizados para entrenar los modelos de IA son cada vez más escasos. Un artículo de Epoch AI, una organización de investigación en IA, concluyó que los modelos de IA podrían agotar todos los datos lingüísticos de alta calidad disponibles en Internet en 2026.
Por eso, las empresas se están volviendo creativas a la hora de acceder a nuevos datos para entrenar modelos y gestionar costes. La versión más reciente de Chat GPT de Open IA, por ejemplo, se ofrece gratis a los usuarios a cambio de algunos datos de usuarios y de terceros. Los principales actores también están estudiando los datos sintéticos, que se componen de imágenes en 2D, datos en 3D, texto y más, que se utilizan con datos del mundo real para entrenar la IA.
Aunque las empresas que desarrollan LLM asumen los costes de los datos, los costes climáticos de los modelos de lenguaje cada vez más grandes se han pasado por alto en gran medida. A medida que estos modelos crecen en complejidad y uso, consumen enormes recursos computacionales. Los centros de datos que albergan las supercomputadoras que alimentan estos modelos consumen una cantidad significativa de energía, lo que genera las correspondientes emisiones de carbono.
"No se trata solo de que haya un gran impacto energético aquí, sino también de que los impactos de carbono de ello traerán costes primero a las personas que no se benefician de esta tecnología", dijo Emily Bender, profesora de lenguaje de la Universidad de Washington, que publicó un artículo titulado On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?.
"Cuando hacemos el análisis coste-beneficio, es importante pensar en quién recibe el beneficio y quién paga el coste porque no son las mismas personas", dijo Bender en un comunicado de prensa de la Universidad de Washington.
Una forma en que las empresas están equilibrando costes y beneficios es utilizando primero modelos más grandes para dar dirección a los problemas empresariales más difíciles. Luego, una vez que obtienen la respuesta, cambian a modelos más pequeños que replican los hallazgos de los modelos grandes, pero a un coste menor y con una latencia reducida.
El uso de modelos de lenguaje más pequeños también está aumentando como alternativa a los modelos de lenguaje grandes.
"Los LLM más pequeños ofrecen a los usuarios más control en comparación con modelos de lenguaje más grandes como ChatGPT o Claude de Anthropic, lo que los hace más deseables en muchos casos", dijo Brian Peterson, cofundador y director de tecnología de Dialpad, una plataforma basada en la nube y con IA, dijo a PYMNTS.
“Son capaces de filtrar un subconjunto más pequeño de datos, lo que los hace más rápidos, más asequibles y, si tiene sus propios datos, mucho más personalizables e incluso más precisos”. Es poco probable que la carrera por construir LLM más grandes y potentes se ralentice en el corto plazo. Pero de cara al futuro, la mayoría de los expertos coinciden en que también veremos una oleada de modelos de IA compactos pero potentes que destaquen en campos específicos y ofrezcan una alternativa a las empresas que buscan equilibrar mejor el valor y los costes de la IA.
Descubra IBM Granite, nuestra familia de modelos de IA abiertos, de alto rendimiento y fiables, diseñados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Busque artículos, blogs y tutoriales de IBM Developer y profundice en ellos para ampliar sus conocimientos sobre los LLM.
Aprenda a impulsar continuamente a los equipos para que mejoren el rendimiento de los modelos y superen a la competencia utilizando las últimas técnicas e infraestructuras de IA.
Explore el valor de los modelos fundacionales de nivel empresarial que proporcionan confianza, rendimiento y beneficios rentables a todos los sectores.
Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.