LLM(대규모 언어 모델)이 보편화되면서 사람들은 이에 액세스하는 앱을 사용하는 방법을 알게 되었습니다. 현대 AI 도구는 생성, 생성, 요약, 번역, 분류, 심지어 대화까지 할 수 있습니다. 생성형 AI 도메인의 도구를 사용하면 기존 아티팩트에서 학습한 후 프롬프트에 대한 응답을 생성할 수 있습니다.
그다지 혁신이 이루어지지 않은 영역 중 하나가 바로 제약이 많은 디바이스입니다. 언어 번역 기능이 내장된 일부 버전의 AI 앱이 모바일 디바이스에서 로컬로 실행되는 것을 볼 수 있지만, 아직 LLM이 클라우드 제공업체 외부에서 가치를 창출하는 단계에 이르지는 못했습니다.
그러나 모바일 디바이스에서 생성형 AI 기능을 혁신할 수 있는 잠재력을 가진 소규모 모델도 있습니다. 하이브리드 AI 모델의 관점에서 이러한 솔루션을 살펴보겠습니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
LLM은 이 새로운 패러다임을 구동하는 특수 유형의 AI 모델입니다. 자연어 처리(NLP)를 통해 이 능력을 사용할 수 있습니다. LLM을 훈련시키기 위해 개발자는 인터넷을 포함한 다양한 소스에서 대량의 데이터를 사용합니다. 처리되는 매개변수가 수십억 개에 달하기 때문에 그 규모가 매우 큽니다.
LLM은 다양한 주제에 대해 잘 알고 있지만, 자신이 훈련받은 데이터에만 국한되어 있습니다. 즉, 항상 '최신'이거나 정확한 것은 아닙니다. LLM은 크기가 크기 때문에 일반적으로 클라우드에서 호스팅되므로 많은 GPU를 포함하는 강력한 하드웨어 배포가 필요합니다.
즉, 개인 또는 독점 비즈니스 데이터에서 정보를 마이닝하려는 기업에서는 LLM을 즉시 사용할 수 없습니다. 특정 질문에 답하거나, 요약을 작성하거나, 개요를 작성하려면 공개 LLM에 데이터를 포함하거나 자체 모델을 만들어야 합니다. 자체 데이터를 LLM에 추가하는 방법을 검색 증강 생성 또는 RAG 패턴이라고 합니다. LLM에 외부 데이터를 추가하는 생성형 AI 디자인 패턴입니다.
통신사, 의료 서비스 또는 석유 및 가스 회사와 같은 전문 영역에서 운영되는 기업은 레이저에 집중하고 있습니다. 일반적인 생성형 AI 시나리오와 사용 사례에서 이점을 얻을 수 있지만, 더 작은 모델을 사용하는 것이 더 효과적일 것입니다.
예를 들어 통신사의 경우 일반적인 사용 사례로는 컨택 센터의 AI 어시스턴트, 서비스 제공의 맞춤형 제안, 고객 경험을 향상시키는 AI 기반 챗봇이 있습니다. 통신사가 네트워크 성능을 개선하고, 5G 네트워크의 스펙트럼 효율성을 높이거나 네트워크의 특정 병목 현상을 파악하는 데 도움이 되는 사용 사례는 기업의 자체 데이터(공개 LLM과 대조적으로)를 활용하는 것이 가장 좋습니다.
그래서 우리는 작을수록 좋다는 생각을 하게 됩니다. 이제 LLM에 비해 크기가 '더 작은' 소형 언어 모델(SLM)이 있습니다. SLM은 수백억 개의 매개변수에 대해 훈련되는 반면, LLM은 수천억 개의 매개변수에 대해 학습됩니다. 더 중요한 것은 SLM은 특정 도메인과 관련된 데이터로 훈련된다는 것입니다. 광범위한 컨텍스트 정보를 가지고 있지 않을 수도 있지만 선택한 도메인에서 매우 잘 수행됩니다.
이러한 모델은 크기가 작기 때문에 클라우드가 아닌 기업의 데이터 센터에서 호스팅할 수 있습니다. SLM은 단일 GPU 칩에서 대규모로 실행되어 연간 수천 달러의 컴퓨팅 비용을 절감할 수도 있습니다. 그러나 칩 설계가 발전함에 따라 클라우드에서만 실행할 수 있는 것과 엔터프라이즈 데이터 센터에서만 실행할 수 있는 것 사이의 구분이 명확하지 않습니다.
비용, 데이터 프라이버시 또는 데이터 주권 문제 등 기업은 데이터 센터에서 이러한 SLM을 실행하기를 원할 수 있습니다. 대부분의 기업은 데이터를 클라우드로 전송하는 것을 좋아하지 않습니다. 또 다른 주요 이유는 성능입니다. 엣지의 생성형 AI는 데이터에 최대한 가까운 곳에서 계산과 추론을 수행하므로 클라우드 제공자를 통하는 것보다 더 빠르고 안전합니다.
SLM은 계산 능력이 덜 필요하며 리소스가 제한된 환경과 모바일 디바이스에 배포하는 데 이상적입니다.
온프레미스의 예로는 LLM을 호스팅하는 IBM® Cloud에 안전하게 고속으로 연결되는 IBM Cloud Satellite 위치가 있습니다. 통신사는 이러한 SLM을 기지국에서 호스팅하고 고객에게도 이 옵션을 제공할 수 있습니다. 데이터가 이동해야 하는 거리가 줄어들어 대역폭이 향상되기 때문에 GPU 사용을 최적화하는 것이 중요합니다.
모바일 디바이스에서 이러한 모델을 실행할 수 있는지에 대한 원래 질문으로 돌아갑니다. 모바일 디바이스는 고급 휴대폰, 자동차, 심지어 로봇일 수도 있습니다. 디바이스 제조업체는 LLM을 실행하는 데 상당한 대역폭이 필요하다는 사실을 발견했습니다. 소형 LLM은 휴대폰과 의료 기기에서 로컬로 실행할 수 있는 작은 크기의 모델입니다.
개발자는 낮은 순위 적응과 같은 기술을 사용하여 이러한 모델을 만듭니다. 이를 통해 사용자는 훈련 가능한 매개변수의 수를 비교적 적게 유지하면서 고유한 요구 사항에 맞게 모델을 미세 조정할 수 있습니다. 실제로 GitHub에는 TinyLlama 프로젝트도 있습니다.
칩 제조업체는 이미지 확산과 지식 증류를 통해 축소된 버전의 LLM을 실행할 수 있는 칩을 개발하고 있습니다. 시스템온칩(SOC)과 신경처리장치(NPU)는 에지 디바이스가 생성형 AI 작업을 실행하는 데 도움을 줍니다.
이러한 개념 중 일부는 아직 프로덕션 단계에 있지는 않지만, 솔루션 아키텍트는 현재 가능한 것이 무엇인지 고려해야 합니다. LLM과 협력하고 협력하는 SLM이 실행 가능한 솔루션이 될 수 있습니다. 기업은 해당 산업에 맞는 기존의 소규모 전문 AI 모델을 사용하거나 자체 모델을 만들어 개인화된 고객 경험을 제공할 수 있습니다.
온프레미스에서 SLM을 실행하는 것이 실용적이고 모바일 엣지 디바이스의 작은 LLM이 매력적으로 보이지만, 모델이 일부 프롬프트에 응답하기 위해 더 큰 데이터 말뭉치를 필요로 한다면 어떻게 해야 할까요?
하이브리드 클라우드 컴퓨팅은 두 가지 장점을 모두 제공합니다. AI 모델에도 동일한 방식이 적용될 수 있을까요?
소규모 모델이 부족한 경우 하이브리드 AI 모델이 퍼블릭 클라우드에서 LLM에 액세스할 수 있는 옵션을 제공할 수 있습니다. 이러한 기술을 활성화하는 것은 당연한 일입니다. 이를 통해 기업은 도메인별 SLM을 사용하여 온프레미스 내에서 데이터를 안전하게 유지할 수 있으며, 필요할 때 퍼블릭 클라우드에 액세스할 수 있습니다. SOC가 탑재된 모바일 디바이스의 기능이 향상됨에 따라 이는 생성형 AI 워크로드를 보다 효율적으로 분산할 수 있는 방법이 될 것으로 보입니다.
IBM은 최근 Watson 플랫폼에서 오픈 소스 미스트랄 AI 모델을 사용할 수 있다고 발표했습니다. 이 컴팩트한 LLM은 실행하는 데 필요한 리소스가 적지만 기존 LLM에 비해 효과적이고 성능이 더 좋습니다. 또한 IBM은 고도로 큐레이팅되고 신뢰할 수 있는 파운데이션 모델 제품군의 일부로 Granite 7B 모델을 출시했습니다.
기업들은 여러 제공업체에서 쉽게 액세스할 수 있는 일반 LLM을 직접 구축하기보다는 기업 내부 데이터로 소규모의 도메인별 모델을 구축하여 핵심 역량을 차별화하고 데이터에서 얻은 인사이트를 활용하는 데 집중해야 한다는 것이 저희의 주장입니다.
통신사는 이러한 하이브리드 AI 모델을 채택함으로써 이점을 얻을 수 있는 대표적인 기업 사례입니다. 이들은 소비자이자 공급자가 될 수 있기 때문에 고유한 역할을 가지고 있습니다. 의료, 석유 굴착 장치, 물류 회사 및 기타 산업에도 유사한 시나리오를 적용할 수 있습니다. 통신사는 생성형 AI를 잘 활용할 준비가 되어 있나요? 많은 데이터를 보유하고 있다는 것은 알고 있지만 데이터에 맞는 시계열 모델이 있나요?
AI 모델과 관련하여 IBM은 각각의 고유한 사용 사례를 수용할 수 있는 멀티모델 전략을 가지고 있습니다. 더 큰 것이 항상 더 나은 것은 아닙니다. 전문화된 모델이 인프라 요구 사항이 낮은 범용 모델보다 성능이 더 뛰어나기 때문입니다.
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.