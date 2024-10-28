IBM está lanzando sus modelos Granite 3.0 como software de código abierto bajo la licencia Apache 2.0, adoptando un enfoque marcadamente diferente al de los desarrolladores que mantienen sus sistemas de IA privados. La empresa construyó sus modelos utilizando conjuntos de datos públicos como GitHub Code Clean y StarCoder, lo que les permitió evitar los problemas de derechos de autor que han llevado a demandas contra empresas de IA que entrenan sus modelos con contenido protegido, como el caso actual de News Corp contra Perplexity.

La versión incluye modelos de lenguaje 8B y 2B enfocados en tareas empresariales como generación aumentada por recuperación y clasificación, junto con variantes especializadas para la instrucción y la monitorización de seguridad. Los modelos, compatibles con 116 lenguajes de programación y entrenados en 3-4 terabytes de tokens, están disponibles a través de múltiples plataformas, como Hugging Face, GitHub e IBM watsonx.ai. Los modelos oscilan entre 3 y 34 mil millones de parámetros y pueden utilizarse para aplicaciones comerciales y de investigación sin restricciones en versiones nominalmente de "código abierto".

"Contar con esa diversidad de pensamiento y contribuir a este ecosistema abierto es una propuesta mucho más emocionante que mantener nuestros modelos encerrados en una caja", afirma Kate Soule, directora del programa Data and Model Factory de IBM Research. "Queremos que la comunidad lo utilice".

El movimiento de código abierto también ha cobrado impulso en Europa, donde Mistral AI se ha convertido en líder de sectores. La startup con sede en París ha lanzado modelos cada vez más capaces que los desarrolladores pueden descargar y modificar libremente.

La estrategia de código abierto crea un intercambio bidireccional: las empresas comparten modelos de IA que solo los grandes bolsillos podrían construir, al tiempo que obtienen conocimientos de miles de desarrolladores a medida que encuentran nuevos usos para la tecnología. Muchos argumentan ahora que restringir el acceso significa perderse esta innovación colectiva.

"Imagínese que existe algún pequeño y novedoso ajuste en la arquitectura de su modelo que, incluso dejando todo lo demás sin cambios, mejoraría significativamente el rendimiento general", afirma Dave Bergmann, redactor sénior de IBM Think. "Si publica su modelo solo como peso abierto y se niega a revelar información y código para su arquitectura, es posible que nunca se dé cuenta de la oportunidad que hay ahí. Pero si 20 000 personas manipulan el código de su modelo, alguien lo detectará”.