オープンソースAIとは、許可を要求する必要なしに、あらゆる目的で使用、検査、変更、配布できる人工知能システムを指します。
これらの自由は、オープンソースの原則とポリシーのスチュワードとして世界的に評価されているオープンソース・イニシアチブ(OSI)によって確立されたオープンソースAIの定義と一致しています。1
生成AIの台頭は、オープンソースAIの時代のきっかけとなりました。Economist Impact社の報告によると、2023年にリリースされた大規模言語モデル(LLM)の3分の2はオープンソースで、チャットボットやコーディングアシスタントのような生成AIアプリケーションを作るために一般的に使われる基盤モデルのカテゴリーです。2
ソフトウェアがオープンソースとみなされるには、誰でもソースコードを必要に応じて、通常は無償で使用、調査、変更、再配布できる必要があります。ただし、オープンソースAIの範囲はオープンソース・ソフトウェアよりもはるかに広範です。
AIシステムには、AIモデルそのものだけでなく、学習時に使用されるデータ・セット、モデルの重みとパラメーター、ソースコードも含まれます。このソースコードには、トレーニング・データのフィルタリングと処理のためのコード、モデルのトレーニングとテストのコード、サポートするライブラリー、およびモデルを実行するための推論コードが含まれます。これらすべてのコンポーネントは、オープンソースAIの条件を遵守し、その条件の下で利用可能にする必要があります。
OSIのオープンソースAIの定義では、個人を特定できる情報(PII)のような、共有不可能な非公開トレーニング・データの除外を認めています。3この種類のデータについては、データの出所、特性と範囲、データの収集方法と選択方法、ラベル付け手順、データ処理およびフィルタリング方法など、詳細な説明を提供する必要があります。4
重みは、事前トレーニングされたモデルの中心的なパラメーターです。これらはトレーニング中に学習され、モデルが新しいデータをどのように解釈し、予測を行うかが決定されます。
オープン・ウェイトは公開され、通常はオープンソース・ライセンスで利用できるため、深層学習モデルの最終状態を覗くことができます。これらはAIの透明性に向けて徐々に進歩することを示していますが、オープン・ウェイトはまだオープンソースAIが提供する全体像を把握していません。トレーニング・データやトレーニング・コードがなければ、他のユーザーはトレーニング・プロセスを精査したり、再現したりすることができません。
最近のIBMの調査によると、調査対象のIT意思決定者の80%以上が、自社のAIプラットフォームやソリューションの少なくとも4分の1はオープンソースをベースにしていると回答しています。また、オープンソースのエコシステムを活用している企業は、そうでない企業よりもプラスのROIを達成している傾向があります。
オープンソースAIには、ROIの向上に加えて、次のような重要なメリットがあります。
●アクセシビリティ
●コラボレーティブイノベーション
●コスト効率
●カスタマイズ
●透明性
オープンソースのAIは、特にこの分野に不慣れな人にとって、参入障壁を打ち破ります。また、中小企業や専門知識のない企業など、AI開発に多額の資金リソースを投資できない組織にもアクセスできます。
オープンソースの中心にあるのはコミュニティーであり、AI開発者、研究者、組織、その他の利害関係者が協力してAIテクノロジーを継続的に改善しています。こうした集団的な取り組みが学習と共有につながり、他の人々の成果を基に構築する機会が生まれ、イノベーションが促進されます。
オープンソースのAIモデルは通常無料で使用できます。これにより、企業は独自のモデルを開発してトレーニングしたり、高額な料金体系やライセンス料を支払うクローズドソース・プロバイダーから調達したりする初期コストを節約できます。
組織は独自の条件でオープンソースのAIシステムを変更し、より高度な制御を可能にします。これらのシステムを特定のニーズやユースケースに合わせてカスタマイズし、自社のビジネス・データに基づいてオープンソースのAIモデルを微調整し、これらのモデルを特定のタスクに最適化することができます。
オープンソースAIには多くのメリットがありますが、限界もあります。オープンソースAIに関連する課題は次のとおりです。
●専用またはタイムリーなサポートの欠如
●誤用の可能性
●セキュリティーの脆弱性
独自のモデルとは異なり、オープンソースのAIモデルは、多くの場合、緊急の問題に対する対応時間や問題の解決を支援する専用のサポート・チーム、またはセキュリティー・パッチやアップデートのリリースにかかる一貫したスケジュールを設定していません。企業はそれを引き受け、AIアプリケーションを監視し、独自のサポート手順を作成する必要があります。
オープンソースのAIは透明性がありますが、その可視性により、攻撃者が悪用する可能性のあるセキュリティーの脆弱性が明らかになります。繰り返しになりますが、オープンソースAIソリューションの周りにガードレールを確立する責任は組織にあります。
無数のオープンソースAIモデルが存在し、そのほとんどはHugging FaceまたはGitHubリポジトリーを通じてアクセスできます。ここでは、人気のあるものをいくつか紹介します。
● Amber
● Crystal
● DeepSeek-R1
● Falcon-7B and Falcon-40B
● Granite
● OLMo
● Pythia
● Qwen
● T5
Amberは、LLM360によって開発された70億のパラメーターの英語モデルであり、オープンソースの大規模モデル研究開発を通じてコミュニティー所有のAIを支援する取り組みです。AmberはMeta社のLlamaアーキテクチャーに基づいており、Apache 2.0ライセンスで利用できます。OSIによると、AmberはOSIのオープンソースのAIの定義に準拠しています。1
CrystalはLLM360のもう一つの大規模言語モデルで、パラメーター・サイズは70億です。Apache 2.0ライセンスでリリースされており、コーディングと自然言語処理(NLP)のタスクのバランスを取ることに優れています。OSIによると、CrystalはOSIのオープンソースAIの定義に準拠しています。1
DeepSeek-R1は、中国のAIスタートアップDeepSeekによる推論モデルです。Mixture of Experts(MoE)機械学習アーキテクチャーを使用し、大規模な強化学習で訓練され、推論能力を洗練させました。MITライセンスで利用できます。
Falcon-7BとFalcon-40Bは、それぞれ70億と400億のパラメーターを持つ因果デコーダーのみのモデルです。アラブ首長国連邦のテクノロジー・イノベーション・インスティテュート(TII)の研究者によって開発されたこの2つのモデルは、TIIが独自に開発したRefinedWeb、フィルタリングされた英語のウェブデータを含む巨大なデータ・セットで学習された。Falcon-7BおよびFalcon-40BはApache 2.0ライセンスで利用できます。
IBM® Graniteは、エンタープライズ向けのマルチモーダルAIモデルのシリーズです。同社は、社内でキュレートされた合成データ・セットと共に許可ライセンスを備えたオープンソースの命令データ・セットを基盤に構築されています。モデルはApache 2.0ライセンスで利用できます。
Granite®の基盤モデルは、エージェント型ワークフロー用に設計された推論機能を持つ小さな言語モデル、文書や画像の理解のためのビジョンタスクに特化したビジョンモデル、自動音声認識や翻訳のためのスピーチモデル、コード生成タスクのためのコードモデルで構成されています。
OLMoは、非営利のAI研究機関であるAi2の言語モデル群です。モデルには、1、7、13、320億のパラメーター・サイズがあります。OLMoの成果を再現するモデル、トレーニング・コード、評価スイート、および事前トレーニング、中間トレーニング、トレーニング後を含む各フェーズで使用されるトレーニング・データは、すべてApache 2.0ライセンスの下で自由に利用できます。OSIによると、OLMoはOSIのオープンソースのAIの定義に準拠しています。1
T5は、Googleの研究者によって開発されたテキスト間転送トランスフォーマー・モデルです。幅広いNLPタスクに優れており、Apache 2.0ライセンスの下でリリースされています。OSIによると、T5はOSIのオープンソースのAIの定義に準拠しています。1
OSIはまた、Meta社のLlama 2、Microsoft社のPhi-2、Mistral社のMixtral、xAI社のGrokといったモデルを検証した結果、これらのモデルはOSIのオープンソースAI定義に準拠していないと結論づけられました。その理由は「必要な構成要素が欠如していること、および/または法的契約がオープンソースの原則と相容れないため」です。1
オープンソースのAIプロジェクトに取り組むのは大変な作業です。ここでは、役立つ有名なオープンソースAIツールを紹介します。
● Keras
● OpenCV
● PyTorch
● Scikit-learn
● TensorFlow
Kerasは、ディープラーニング・モデルの構築、訓練、評価のためにPythonで書かれたアプリケーション・プログラミング・インターフェース(API)です。JAX、PyTorch、TensorFlowのフレームワークと互換性があり、その上で実行できます。
OpenCVは、Open Source Vision Foundationが運営するオープンソース・コンピューター・ビジョン・ライブラリーです。画像認識、画像分類、物体検知、物体追跡など、リアルタイム・ビジョン・アプリケーション用に最適化された2,500以上のアルゴリズムが搭載されています。
PyTorchは、もともとMeta社によって開発されたフレームワークで、現在はLinux Foundationの一部となっています。動的ニューラル・ネットワークとGPUアクセラレーションをサポートし、Pythonのライブラリーやパッケージとシームレスに統合し、直感的なインターフェースを提供し、フレームワークのオーバーヘッドを最小限に抑えます。
TensorFlowは、機械学習モデルの構築と展開のためのプラットフォームです。Googleが作成したTensorFlowには、データ・セットとモデルのライブラリー、さまざまなプログラミング言語のAPI、および機械学習のワークフローを最適化するためのツールが含まれています。また、強力なオープンソース・コミュニティーもあり、書籍、厳選されたカリキュラム、オンライン・コースを通じて、人々が機械学習の専門知識を構築できるように支援しています。
1 The Open-Source AI Definition 1.0, Open Source Initiative, Accessed 12 May 2025
2 Open sourcing the AI revolution, Economist Impact, 2024
3 Answers to frequently asked questions, Open Source Initiative, 29 October 2024
4 The Open Source AI Definition – 1.0, Open Source Initiative, Accessed 12 May 2025