Nem sempre maior é melhor, e o que os SLMs não têm em tamanho, compensam com estas vantagens:
Acessibilidade: pesquisadores, desenvolvedores de IA e outras pessoas podem explorar e experimentar modelos de linguagem sem precisar investir em várias GPUs (unidades de processamento gráfico) ou outros equipamentos especializados.
Eficiência: A redução dos SLMs faz com que exijam menos recursos, possibilitando treinamento e implementação rápidos.
Desempenho eficaz: essa eficiência não prejudica o desempenho. Modelos pequenos podem ter desempenho comparável ou até melhor do que seus equivalentes de modelos grandes. Por exemplo, o GPT-4o mini supera o GPT-3.5 Turbo em compreensão de linguagem, resposta a perguntas, raciocínio, raciocínio matemático e benchmarks de LLM de geração de código.10 O desempenho do GPT-4o mini também está próximo do de seu irmão maior GPT-4o.10
Maior privacidade e controle de segurança: Devido ao seu menor tamanho, os SLMs podem ser implementados em ambientes de computação em nuvem privada ou locais, possibilitando maior proteção de dados e melhor gerenciamento e mitigação de ameaças à cibersegurança. Isso pode ser especialmente valioso para setores como o financeiro ou o de saúde, em que tanto a privacidade quanto a segurança são fundamentais.
Menor latência: menos parâmetros significam menos tempos de processamento, possibilitando que os SLMs respondam com rapidez. Por exemplo, Granite 3.0 1B-A400M e Granite 3.0 3B-A800M têm contagens totais de parâmetros de 1 bilhão e 3 bilhões, respectivamente, enquanto suas contagens de parâmetros ativos na inferência são de 400 milhões para o modelo 1B e 800 milhões para o modelo 3B. Isso permite que ambos os SLMs minimizem a latência e ofereçam alto desempenho de inferência.
Mais ambientalmente sustentáveis: como exigem menos recursos computacionais, os modelos de linguagem pequenos consomem menos energia, diminuindo, assim, sua pegada de carbono.
Custo reduzido: as organizações podem economizar com despesas de desenvolvimento, infraestrutura e operações, como a aquisição de grandes volumes de dados de treinamento de alta qualidade e o uso de hardware avançado que, de outra forma, seria necessário para rodar modelos gigantescos.