오픈 소스 AI는 허가를 요청하지 않고도 어떤 목적으로든 사용, 검토, 변경 및 배포할 수 있는 인공 지능 시스템을 말합니다.
이러한 자유는 전 세계적으로 오픈 소스 원칙 및 정책의 관리자로 간주되는 오픈 소스 이니셔티브(OSI)에서 확립한 오픈 소스 AI의 정의와 일치합니다.1
생성형 AI의 등장은 오픈소스 AI 시대를 촉진하는 데 도움이 되었습니다. Economist Impact의 보고서에 따르면, 2023년에 출시된 대형 언어 모델(LLM)의 3분의 2가 오픈 소스였습니다. LLM은 챗봇과 코딩 어시스턴트 같은 생성형 AI 애플리케이션을 만드는 데 흔히 사용되는 파운데이션 모델 카테고리입니다.2
소프트웨어가 오픈 소스로 간주되려면 누구나 원하는 대로 소스 코드를 사용, 연구, 수정 및 재배포할 수 있어야 하며, 일반적으로 무료로 제공되어야 합니다. 그러나 오픈 소스 AI의 범위는 오픈 소스 소프트웨어보다 훨씬 넓습니다.
AI 시스템에는 AI 모델 자체뿐만 아니라 학습에 사용되는 데이터 세트, 모델 가중치 및 매개변수, 소스 코드도 포함됩니다. 이 소스 코드에는 학습 데이터 필터링 및 처리 코드, 모델 학습 및 테스트 코드, 모든 지원 라이브러리, 모델 실행을 위한 추론 코드가 포함되어 있습니다. 이러한 모든 구성 요소는 오픈 소스 AI 약관을 준수하고 해당 조건에 따라 제공되어야 합니다.
OSI의 오픈 소스 AI 정의는 개인 식별 정보(PII)와 같은 공유할 수 없는 비공개 교육 데이터를 제외하는 것을 허용합니다.3 이러한 유형의 데이터에 대해서는 출처, 특성 및 범위, 데이터 수집 및 선택 방법, 레이블 지정 절차, 데이터 처리 및 필터링 방법을 포함한 자세한 설명을 제공해야 합니다.4
가중치는 사전 학습된 모델의 핵심 파라미터입니다. 이러한 속성은 훈련 중에 학습되며 모델이 새로운 데이터를 해석하고 예측을 수행하는 방식을 결정합니다.
오픈 가중치는 공개적으로 공유되며 일반적으로 오픈 소스 라이선스에 따라 사용 가능하므로 딥러닝 모델의 최종 상태를 들여다볼 수 있습니다. 개방형 가중치는 AI의 투명성을 향한 점진적인 발전을 의미하지만 여전히 오픈 소스 AI가 제공하는 완전한 그림을 제공하지는 못합니다. 훈련 데이터나 훈련 코드가 없으면 다른 사람이 훈련 과정을 면밀히 조사하거나 재현할 수 없습니다.
최근 IBM 설문조사에 따르면, IT 의사 결정권자의 80% 이상이 회사 AI 플랫폼 또는 솔루션의 4분의 1 이상이 오픈 소스를 기반으로 한다고 답했습니다. 그리고 오픈 소스 에코시스템을 활용하는 기업은 그렇지 않은 기업보다 긍정적인 ROI를 달성할 가능성이 더 높습니다.
오픈 소스 AI는 ROI를 높이는 것 외에도 다음과 같은 주요 이점을 제공합니다.
● 접근성
● 협업적 혁신
● 비용 효율성
● 커스터마이징
● 투명성
오픈 소스 AI는 특히 이 분야를 처음 접하는 사람들의 진입 장벽을 허물어 줍니다. 또한 중소기업이나 전문 지식이 없는 기업과 같이 AI 개발에 상당한 재정 자원을 투자할 수 없는 조직에 대한 액세스를 제공합니다.
커뮤니티는 오픈소스의 중심에 있습니다. AI 개발자, 연구원, 조직 및 기타 이해관계자가 협력하여 AI 기술을 지속적으로 개선합니다. 이러한 공동의 노력은 학습과 공유로 이어져 다른 사람의 작업을 기반으로 할 수 있는 기회를 열어주고 혁신을 촉진합니다.
오픈 소스 AI 모델은 일반적으로 무료로 사용할 수 있습니다. 이를 통해 기업은 자체 모델을 개발 및 교육하거나 높은 구독 가격 또는 라이선스 비용으로 비공개 소스 제공업체로부터 모델을 조달하는 초기 비용을 절감할 수 있습니다.
조직은 필요에 따라 오픈 소스 AI 시스템을 변경하여 더 큰 제어 권한을 부여할 수 있습니다. 이러한 시스템을 특정 요구 사항과 사용 사례에 맞게 조정하고, 자체 비즈니스 데이터에서 오픈 소스 AI 모델을 미세 조정하고, 특정 작업에 맞게 이러한 모델을 최적화할 수 있습니다.
오픈 소스 AI의 개방성은 AI의 투명성을 높입니다. AI 시스템이 어떻게 구축되고 훈련되었는지, 그리고 어떻게 의사 결정을 내리는지 알면 특히 의료, 인적 자원, 사법 시스템과 같이 AI 결과가 삶에 영향을 미칠 수 있는 산업에서 신뢰와 신뢰를 심어주는 데 도움이 됩니다.
또한 이러한 투명성을 통해 버그를 정확히 찾아내고 편향을 식별하며 보안 결함을 탐지하여 AI 개발자가 신속하게 해결할 수 있습니다. 또한 오픈 소스 AI의 내부 작동에 대한 가시성을 통해 정부 및 금융과 같이 규정 준수가 가장 중요한 부문의 정책 입안자가 감사 가능성을 높일 수 있습니다.
오픈 소스 AI는 많은 이점에도 불구하고 한계가 있습니다. 오픈 소스 AI와 관련된 몇 가지 과제는 다음과 같습니다.
● 전담 또는 적시 지원 부족
● 오용 가능성
● 보안 취약성
독점 모델과 달리 오픈 소스 AI 모델은 긴급한 문제에 대해 설정된 응답 시간, 문제 해결을 지원하는 전담 지원 팀 또는 보안 패치 또는 업데이트 릴리스를 위한 일관된 일정이 없는 경우가 많습니다. 기업은 AI 애플리케이션을 모니터링하고 자체 지원 절차를 만들어야 합니다.
오픈 소스 AI는 투명하지만 가시성으로 인해 악의적인 행위자가 악용할 수 있는 보안 취약점이 노출됩니다. 다시 말하면, 오픈 소스 AI 솔루션을 중심으로 가드레일을 구축하는 책임은 조직에 있습니다.
수많은 오픈 소스 AI 모델이 존재하며, 대부분 Hugging Face 또는 GitHub 리포지토리를 통해 액세스할 수 있습니다. 다음은 몇 가지 인기 있는 항목입니다.
● Amber
● Crystal
● DeepSeek-R1
● Falcon-7B 및 Falcon-40B
● Granite
● OLMo
● Pythia
● Qwen
● T5
Amber는 오픈 소스 대규모 모델 연구 및 개발을 통해 커뮤니티 소유의 AI를 위한 이니셔티브인 LLM360이 개발한 70억 개의 매개변수를 가진 영어 모델입니다. Amber는 Meta의 Llama 아키텍처를 기반으로 하며 Apache 2.0 라이선스에 따라 사용할 수 있습니다. OSI에 따르면 Amber는 OSI의 오픈 소스 AI 정의를 준수합니다.1
Crystal은 파라미터 크기가 70억 개에 달하는 LLM360의 또 다른 대형 언어 모델입니다. Apache 2.0 라이선스에 따라 출시되었으며 코딩과 자연어 처리(NLP) 작업의 균형을 맞추는 데 탁월합니다. OSI에 따르면 Crystal은 OSI의 오픈소스 AI 정의를 준수합니다.1
DeepSeek-R1은 중국 AI 스타트업 DeepSeek의 추론 모델입니다. 이 시스템은 Mixture of Experts(MoE) 머신러닝 아키텍처를 사용하며 대규모 강화 학습을 통해 추론 능력을 개선하도록 훈련되었습니다. MIT 라이선스에 따라 사용할 수 있습니다.
Falcon-7B 및 Falcon-40B는 각각 70억 개와 400억 개의 파라미터를 가진 인과 관계 디코더 전용 모델입니다. 이는 아랍에미리트 기술혁신연구소(TII)의 연구원들이 개발한 두 모델은 필터링된 영어 웹 데이터가 포함된 TII의 자체 RefinedWeb에서 학습되었습니다. Falcon-7B 및 Falcon-40B는 Apache 2.0 라이선스에 따라 사용할 수 있습니다.
IBM® Granite는 기업에 적합한 멀티모달 AI 모델 시리즈입니다. 내부적으로 큐레이션된 합성 데이터 세트와 함께 허용형 라이선스가 포함된 오픈 소스 지침 데이터 세트를 기반으로 구축되었습니다. 이 모델은 Apache 2.0 라이선스에 따라 사용할 수 있습니다.
Granite 기반 모델은 에이전트 워크플로를 위해 설계된 추론 기능을 갖춘 소규모 언어 모델, 문서 및 이미지 이해를 위한 시각 작업에 특화된 비전 모델, 자동 음성 인식 및 번역을 위한 음성 모델, 코드 생성 작업을 위한 코드 모델로 구성되어 있습니다.
OLMo는 비영리 AI 연구 기관인 Ai2의 언어 모델 제품군입니다. 모델은 1, 7, 13, 320억 개의 매개변수 크기로 제공됩니다. 모델, 학습 코드, OLMo의 결과를 재현하기 위한 평가 제품군 및 사전 학습, 중간 학습 및 사후 학습을 포함하여 각 단계에서 사용되는 학습 데이터는 모두 Apache 2.0 라이선스에 따라 무료로 사용할 수 있습니다. OSI에 따르면 OLMo는 OSI의 오픈소스 AI 정의를 준수합니다.1
T5는 Google의 연구원들이 개발한 텍스트 간 전송 트랜스포머 모델입니다. 광범위한 NLP 작업에 탁월하며 Apache 2.0 라이선스에 따라 릴리스됩니다. OSI에 따르면 T5는 OSI의 오픈 소스 AI 정의를 준수합니다.1
OSI는 Meta의 Llama 2, Microsoft의 Phi-2, Mistral의 Mixtral, xAI의 Grok도 분석했으며, 이들 모델이 필수 구성 요소가 부족하거나 법적 계약이 오픈 소스 원칙과 호환되지 않기 때문에 OSI의 오픈 소스 AI 정의를 충족하지 않는다고 결론지었습니다.1
오픈 소스 AI 프로젝트 작업은 부담스러울 수 있습니다. 다음은 도움이 될 수 있는 잘 알려진 오픈 소스 AI 툴입니다.
● Keras
● OpenCV
● PyTorch
● Scikit-learn
● TensorFlow
Keras는 딥 러닝 모델을 구축, 교육 및 평가하기 위해 Python으로 작성된 애플리케이션 프로그래밍 인터페이스입니다. JAX, PyTorch 또는 TensorFlow 프레임워크와 호환되며 위에서 실행할 수 있습니다.
TensorFlow는 머신 러닝 모델을 구축하고 배포하기 위한 플랫폼입니다. Google에서 만든 TensorFlow에는 데이터 세트 및 모델 라이브러리, 다양한 프로그래밍 언어용 API, 머신 러닝 워크플로를 최적화하기 위한 툴이 포함되어 있습니다. 또한 강력한 오픈 소스 커뮤니티를 보유하고 있으며 사람들이 책, 엄선된 커리큘럼 및 온라인 과정을 통해 머신 러닝 전문 지식을 쌓을 수 있도록 도와줍니다.
1 The Open-Source AI Definition 1.0, Open Source Initiative, 2025년 5월 12일 액세스
2 Open sourcing the AI revolution, Economist Impact, 2024년
3 Answers to frequently asked questions, Open Source Initiative, 2024년 10월 29일
4 The Open Source AI Definition – 1.0, Open Source Initiative, 2025년 5월 12일 액세스