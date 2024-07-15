En la carrera por dominar IA, más grande suele ser mejor. Más datos y más parámetros crean sistemas de IA más grandes, que no solo son más poderosos sino también más eficientes y rápidos, y generalmente crean menos errores que los sistemas más pequeños.
Las empresas tecnológicas que aprovechan los titulares de las noticias refuerzan esta tendencia. "El sistema que acabamos de desplegar es, en cuanto a escala, casi tan grande como una ballena", dijo el director de tecnología de Microsoft, Kevin Scott, sobre la supercomputadora que impulsa Chat GPT-5. Scott estaba hablando sobre la última versión del chatbot de IA generativa de Open AI en el reciente evento Build de la empresa a finales de mayo. “Y resulta que puedes construir una gran cantidad de IA con una supercomputadora del tamaño de una ballena”.
Mientras tanto, la capitalización bursátil de Nvidia alcanzó la marca de 3 billones de USD en junio. El fabricante de chips ha estado creciendo a un ritmo vertiginoso a medida que sus chips impulsan modelos de lenguaje cada vez más grandes, supercomputadoras y centros de datos que se multiplican en todo el mundo.
Pero, ¿más grande siempre es mejor? Depende de su perspectiva. Para las empresas que desarrollan modelos lingüísticos de gran tamaño, la escala es una ventaja en la mayoría de los casos. Pero a medida que las empresas buscan separar la exageración de donde la IA puede agregar verdadero valor, no está claro que los modelos de lenguaje cada vez más grandes siempre conduzcan a mejores soluciones para las empresas.
En el futuro, "no necesitaremos modelos que sean 100 veces mayores que los que tenemos hoy para extraer la mayor parte del valor", dijo Kate Soule, directora del programa de investigación de IA generativa de IBM en un episodio reciente del podcast Mixture of Experts de IBM. Muchas compañías que ya obtienen un retorno de sus inversiones en IA la emplean para tareas como la clasificación y la resumen, que ni siquiera emplean toda la capacidad de los modelos de lenguaje actuales.
"Más grande es mejor" proviene de las leyes de escalado de datos que entraron en la conversación con un artículo de 2012 de Prasanth Kolachina aplicando las leyes de escalado a machine learning. Kolachina y sus colegas demostraron que a medida que los modelos se hacían más grandes, generalmente se volvían más precisos y funcionaban mejor. En 2017, Hestness et al. demostraron que la escalabilidad del aprendizaje profundo también es previsible empíricamente. Luego, en 2020, Kaplan et al. demostraron que las leyes de escalado de datos también se aplicaban a los modelos lingüísticos.
Aunque estas leyes son útiles para los proveedores de modelos de lenguaje que buscan crear inteligencia artificial general, no está nada claro que las compañías necesiten esta escala de inversión o IA para obtener la mayor parte del valor.
"Solo porque conoce la forma más rentable de entrenar un modelo de enésimo grado en tamaño, ¿los beneficios reales que obtiene de ese modelo justificarán los costos?" dijo Soule de IBM. "Esa es una pregunta completamente diferente que las leyes de escala no responden".
El costo de los datos está aumentando a medida que los datos de alta calidad utilizados para entrenar modelos de IA son cada vez más escasos. Un artículo publicado por Epoch AI, una organización dedicada a la investigación en inteligencia artificial, reveló que los modelos de IA podrían agotar todos los datos lingüísticos de alta calidad disponibles actualmente en Internet ya en 2026.
Y así, las empresas se están volviendo creativas en términos de acceder a nuevos datos para entrenar modelos y gestionar costos. La versión más reciente de Chat GPT de Open IA, por ejemplo, se ofrece gratis a los usuarios a cambio de algunos datos de usuarios y de terceros. Los principales actores también están buscando datos sintéticos, que se componen de imágenes 2D, datos 3D, texto y más, que se utilizan con datos del mundo real para entrenar la IA.
Si bien las empresas que desarrollan LLM asumen los costos de los datos, los costos climáticos de los modelos de lenguaje cada vez más grandes se han pasado por alto en gran medida. A medida que estos modelos crecen en complejidad y uso, consumen grandes recursos computacionales. Los centros de datos que albergan las supercomputadoras que alimentan estos modelos consumen una cantidad significativa de energía, lo que genera las correspondientes emisiones de carbono.
"No es solo que haya grandes impactos energéticos aquí, sino también que los impactos de carbono traerán costos primero a las personas que no se benefician de esta tecnología", dijo Emily Bender, profesora de lingüística de la Universidad de Washington, quien publicó un artículo titulado Sobre los peligros de los loros estocásticos: ¿pueden los modelos de lenguaje ser demasiado grandes?.
"Cuando hacemos el análisis costo-beneficio, es importante pensar en quién recibe el beneficio y quién paga el costo porque no son las mismas personas", dijo Bender en un comunicado de prensa de la Universidad de Washington.
Una forma en que las empresas están equilibrando los costos y los beneficios es utilizando primero modelos más grandes para dar dirección a los problemas comerciales más desafiantes. Luego, una vez que obtienen la respuesta, cambian a modelos más pequeños que replican los hallazgos de los modelos grandes, pero a un costo menor y con menor latencia.
El uso de modelos de lenguaje más pequeños también está creciendo como alternativa a los modelos de lenguaje grandes.
"Los LLM más pequeños ofrecen a los usuarios más control en comparación con modelos de lenguaje más grandes como ChatGPT o Claude de Anthropic, lo que los hace más deseables en muchos casos", dijo Brian Peterson, cofundador y director de tecnología de Dialpad, una plataforma basada en la nube e impulsada por IA, a PYMNTS.
"Pueden filtrar a través de un subconjunto más pequeño de datos, lo que los hace más rápidos, más asequibles y, si tiene sus propios datos, mucho más personalizables e incluso más precisos". Es poco probable que la carrera para construir LLM más grandes y potentes se ralentice en el corto plazo. Sin embargo, de cara al futuro, la mayoría de los expertos coinciden en que también veremos un auge de modelos de IA compactos pero potentes que destacan en campos específicos y ofrecen una alternativa a las empresas que buscan un mejor equilibrio entre el valor y los costos de la IA.
