데이터, 컴퓨팅, 전력 등 공급 병목 현상이 발생하기 시작하면 엔지니어들이 창의력을 발휘하여 이러한 장애물을 해결할 수 있을 것이라고 헤이는 믿습니다.

"풍부한 것을 가지고 있으면 소비하게 됩니다."라고 Hay는 말합니다. "수십만 대의 GPU가 있다면 이를 사용하게 될 것입니다. 하지만 제약이 있을 때 더 창의적이 될 수 있습니다."

예를 들어 합성 데이터는 데이터 위기를 해결할 수 있는 유망한 방법입니다. 이 데이터는 실제 데이터의 특성을 모방하기 위해 알고리즘 방식으로 생성되며, 실제 데이터의 대체 또는 보완 역할을 할 수 있습니다. 머신 러닝 엔지니어는 합성 데이터의 남용에 주의해야 하지만, 하이브리드 접근 방식은 단기적으로 실제 데이터의 부족을 극복하는 데 도움이 될 수 있습니다. 예를 들어, 최근 Microsoft PHI-3.5 모델 또는 Hugging Face SMOL 모델은 상당한 양의 합성 데이터로 학습되었으며, 그 결과 성능이 뛰어난 소형 모델이 탄생했습니다.

오늘날의 LLM은 전력을 많이 소비하지만, 현재의 트랜스포머가 최종 아키텍처라고 믿을 이유는 거의 없습니다. Mistral Codestral Mamba, Jamba 1.5 또는 Falcon Mamba 1.5와 같은 SSM 기반 모델은 향상된 컨텍스트 길이 기능으로 인기를 얻고 있습니다. 여러 유형의 모델을 사용하는 하이브리드 아키텍처도 주목을 받고 있습니다. 엔지니어들은 아키텍처 외에도 양자화, 추론을 위해 특별히 설계된 칩, 특정 사용 사례에 맞게 사전 학습된 모델을 조정하는 딥 러닝 기술인 미세 조정과 같은 다른 방법에서도 가치를 찾고 있습니다.

"저는 업계에서 사전 학습보다는 미세 조정에 관한 커뮤니티가 더 많아졌으면 합니다."라고 Hay는 말합니다. "사전 학습은 이 프로세스에서 가장 비용이 많이 드는 부분입니다. 미세 조정은 훨씬 저렴하며 잠재적으로 훨씬 더 큰 가치를 얻을 수 있습니다."

헤이는 기술이 훨씬 더 효율적이 되었기 때문에 미래에는 우리가 처리할 수 있는 것보다 더 많은 GPU를 갖게 될 것이라고 말합니다. 헤이는 최근 개인용 노트북을 모델을 학습할 수 있는 머신으로 전환하는 실험을 했습니다. 현재 보다 효율적인 데이터 파이프라인을 재구축하고 일괄 처리를 수정함으로써 한계 내에서 작업할 수 있는 방법을 모색하고 있습니다. 헤이는 당연히 값비싼 H100 Tensor Core GPU에서 이 모든 작업을 수행할 수 있었지만, 자원 희소성에 대비한 사고 방식 덕분에 원하는 결과를 얻을 수 있는 더 효율적인 방법을 찾을 수 있었습니다. 필요는 발명의 어머니였습니다.