2년 전 ChatGPT의 출시는 전례 없는 규모와 복잡성을 가진 대규모 언어 모델이 주도하는 AI의 새로운 장을 열었습니다. 이러한 모델은 현재 연구와 비즈니스의 최전선에 있지만, 많은 모델이 데이터, 전체 학습 레시피, 체크포인트를 공개하지 않습니다. 여기서 비영리 단체 Allen Institute for Artificial Intelligence(Ai2)가 등장합니다. Ai2는 Microsoft 공동 창립자 Paul Allen이 2014년에 설립했습니다. 이 연구 그룹은 오픈 소스에서 언어 모델, 멀티모달 모델 및 평가 프레임워크를 연구합니다.
최근 Ai2는 개방형 시스템과 독점 시스템 간의 격차를 크게 좁히는 것을 목표로 하는 최첨단 멀티모드 AI 모델 제품군인 Molmo를 출시했습니다. Ai2는 “우리의 더 작은 모델조차도 경쟁 모델보다 10배 뛰어난 성능을 냅니다.”라고 말합니다.
9월 초, Ai2는 Contextual AI와 공동 개발한 활성 파라미터 10억 개, 총 파라미터 70억 개 규모의 전문가 혼합 모델인 OlmoE를 공개했습니다. 5조 토큰을 기반으로 트레이닝되었으며 Ai2의 Dolma에서 얻은 교훈을 통합한 새로운 데이터 믹스를 기반으로 구축되었습니다.
샌프란시스코에서 열린 PyTorch 컨퍼런스에서 기조 연설을 마친 후 Ai2의 NLP 연구 선임 책임자인 Hanna Hajishirzi와 이야기를 나누며 오픈 소스 모델과 AI 리터러시에 대해 논의했습니다.
우리는 9월에 OLMoE의 마이너 릴리스를 진행했습니다. 작은 모델임에도 불구하고 많은 작업에서 매우 우수한 성능을 보입니다. 그 이후로 커뮤니티에서 매우 긍정적인 반응을 확인했습니다. 또한 GPU 연결 없이 스마트폰에서 직접 언어 모델을 실행하는 앱도 만들었습니다. 아직 개발 중이지만, 안전 기능과 UI 개선을 진행하고 있습니다. 매우 흥미로운 단계입니다. 우리는 더 큰 모델을 학습하는 작업도 진행하고 있습니다.
전문가 모델들이 혼합되어 잘 작동하는 것은 놀라운 일이 아닙니다. 프론티어 모델에도 포함되어 있는 것을 볼 수 있기 때문입니다. 전문가 조합의 이점은 동일한 학습 노력으로 밀집 모델에 비해 더 높은 정확도를 얻을 수 있다는 것입니다. 저희에게 흥미로운 점은 이를 극단적으로 적용하여 10억 개의 매개변수 모델과 같이 우리가 할 수 있는 가장 작은 모델을 학습하여 어떤 일이 일어나는지 확인하는 것이었습니다. 우리는 그 결과에 매우 만족했습니다.
그렇다면 어떻게 그 수준에 도달했을까요? 첫째, 우리는 학습 파이프라인을 개선했습니다. 우리는 조밀한 모델 아키텍처로 시작하여 여러 실험을 통해 전문가 모델을 혼합한 모델까지 성공적으로 확장했습니다. 둘째, 데이터 믹스를 개선하여 더 나은 모델을 만들게 되었습니다. 이 두 가지가 함께 최고의 결과를 가져왔습니다.
AI 커뮤니티에는 광범위한 개방성이 존재합니다. 예를 들어 OpenAI의 ChatGPT는 API를 열어두었지만, 그 뒤에서 어떤 일이 일어나고 있는지는 아무도 알지 못합니다.
모든 것이 화려해 보이지만, 투명성 부족은 AI 리터러시를 촉진하는 것과는 정반대입니다. 대중은 이러한 모델이 특정 방식으로 행동하는 이유를 제대로 이해하지 못합니다. 이 모델들이 좋아질수록 모든 것이 마치 마법처럼 느껴집니다.
AI 커뮤니티는 불투명한 모델에 대해 더 많은 정보를 공개하고, 모델이 특정 답변을 제공하는 이유를 설명하기 시작해야 합니다. 예를 들어 모델이 특정 방식으로 응답하는 이유가 학습 데이터에서 해당 패턴을 발견했기 때문임을 설명할 수 있습니다.
대중에게 이를 교육하는 것은 필수적입니다. 비록 특정 의사 결정을 특정 데이터 포인트와 연결하여 대중이 이해하기 쉽게 설명하는 것은 어렵지만, 이 과정을 보여주는 데모를 만드는 것은 매우 큰 효과를 낼 것입니다.
맞습니다! 이것이 바로 우리의 프로젝트의 핵심 초점입니다. 우리는 모델 가중치와 학습 데이터를 모두 공개하는 것을 목표로 합니다.
OLMo 및 OLMoE 모델을 활용하여, 커뮤니티 연구자들은 모델의 결정이 데이터와 어떻게 연결되는지 연구하고 있습니다. 우리의 오픈 데이터 세트 Dolma는 연구자들이 데이터를 분석할 수 있게 했으며, 개별 데이터 포인트가 모델 행동에 어떻게 기여하는지 설명하는 연구 결과들이 발표되었습니다. 이러한 투명성은 대중에게 정보를 제공하는 데도 도움이 됩니다.
저는 이 문제를 두 가지 관점에서 설명할 수 있습니다. 첫째, 프로젝트를 시작할 때 일부 기업이 발표한 수치의 신뢰성을 의심했습니다. 우리는 그러한 수치가 선택적인 테스트 세트나 벤치마크에서 비롯된 것이 아닌지 확인하고자 했습니다. 이는 연구 커뮤니티 내에서 신뢰가 얼마나 중요한지를 보여줍니다.
우리 모델의 경우 매우 명확합니다. 데이터를 공개하고, 모델이 어떻게 평가되는지를 투명하게 보여주기 때문입니다. 이러한 투명성은 데이터에 무엇이 포함되어 있는지, 모델이 어떻게 학습되는지를 명확히 해줍니다. 우리는 학습 과정 중간 단계를 나타내는 다양한 체크포인트도 공개합니다. 연구자들은 이 체크포인트를 사용해 지식과 성능이 시간이 지남에 따라 어떻게 발전하는지 관찰할 수 있습니다. 그리고 일부 연구자들은 이미 우리의 체크포인트를 활용해 이러한 진화를 연구하고 있습니다.
마지막으로, 대중의 신뢰 측면에서도 유사한 접근 방식이 적용됩니다. 많은 사람들은 언어 모델이 단순히 할루시네이션을 일으킨다고 생각합니다. 결과를 교육 데이터에 연결하고 의사 결정 프로세스를 설명함으로써 신뢰성을 높일 수 있습니다. 아직 그 단계는 아니지만, 학습 데이터에 대한 투명성을 개선하면 대중의 신뢰를 구축할 수 있는 상당한 기회를 얻을 수 있습니다.
언어 모델 과학을 활성화하고 가속화하려면 오픈 소스 AI가 필수적이라고 생각합니다. 우리는 개방적이고 과학적인 연구를 통해 언어 모델에 대한 연구 개발에서 많은 진전을 이루었으며, 오픈 소스 AI를 활성화하기 위해 계속 노력해야 합니다.
