オープンソースAIとは。

開かれた本とさまざまな方向に流れる光

オープンソースAIとは。

オープンソースAIとは、許可を要求する必要なしに、あらゆる目的で使用、検査、変更、配布できる人工知能システムを指します。

これらの自由は、オープンソースの原則とポリシーのスチュワードとして世界的に評価されているオープンソース・イニシアチブ(OSI)によって確立されたオープンソースAIの定義と一致しています。1

生成AIの台頭は、オープンソースAIの時代のきっかけとなりました。Economist Impact社の報告によると、2023年にリリースされた大規模言語モデル(LLM)の3分の2はオープンソースで、チャットボットやコーディングアシスタントのような生成AIアプリケーションを作るために一般的に使われる基盤モデルのカテゴリーです。2

オープンソースAIとオープンソース・ソフトウェアの比較

ソフトウェアがオープンソースとみなされるには、誰でもソースコードを必要に応じて、通常は無償で使用、調査、変更、再配布できる必要があります。ただし、オープンソースAIの範囲はオープンソース・ソフトウェアよりもはるかに広範です。

AIシステムには、AIモデルそのものだけでなく、学習時に使用されるデータ・セット、モデルの重みとパラメーター、ソースコードも含まれます。このソースコードには、トレーニング・データのフィルタリングと処理のためのコード、モデルのトレーニングとテストのコード、サポートするライブラリー、およびモデルを実行するための推論コードが含まれます。これらすべてのコンポーネントは、オープンソースAIの条件を遵守し、その条件の下で利用可能にする必要があります。

OSIのオープンソースAIの定義では、個人を特定できる情報(PII)のような、共有不可能な非公開トレーニング・データの除外を認めています。3この種類のデータについては、データの出所、特性と範囲、データの収集方法と選択方法、ラベル付け手順、データ処理およびフィルタリング方法など、詳細な説明を提供する必要があります。4

オープンソースAIとオープン・ウェイト

重みは、事前トレーニングされたモデルの中心的なパラメーターです。これらはトレーニング中に学習され、モデルが新しいデータをどのように解釈し、予測を行うかが決定されます。

オープン・ウェイトは公開され、通常はオープンソース・ライセンスで利用できるため、深層学習モデルの最終状態を覗くことができます。これらはAIの透明性に向けて徐々に進歩することを示していますが、オープン・ウェイトはまだオープンソースAIが提供する全体像を把握していません。トレーニング・データやトレーニング・コードがなければ、他のユーザーはトレーニング・プロセスを精査したり、再現したりすることができません。

オープンソースAIのメリット

最近のIBMの調査によると、調査対象のIT意思決定者の80%以上が、自社のAIプラットフォームやソリューションの少なくとも4分の1はオープンソースをベースにしていると回答しています。また、オープンソースのエコシステムを活用している企業は、そうでない企業よりもプラスのROIを達成している傾向があります。

オープンソースAIには、ROIの向上に加えて、次のような重要なメリットがあります。

●アクセシビリティ

●コラボレーティブイノベーション

●コスト効率

●カスタマイズ

●透明性

アクセシビリティー

オープンソースのAIは、特にこの分野に不慣れな人にとって、参入障壁を打ち破ります。また、中小企業や専門知識のない企業など、AI開発に多額の資金リソースを投資できない組織にもアクセスできます。

共同作業によるイノベーション

オープンソースの中心にあるのはコミュニティーであり、AI開発者、研究者、組織、その他の利害関係者が協力してAIテクノロジーを継続的に改善しています。こうした集団的な取り組みが学習と共有につながり、他の人々の成果を基に構築する機会が生まれ、イノベーションが促進されます。

コスト効率

オープンソースのAIモデルは通常無料で使用できます。これにより、企業は独自のモデルを開発してトレーニングしたり、高額な料金体系やライセンス料を支払うクローズドソース・プロバイダーから調達したりする初期コストを節約できます。

カスタマイズ

組織は独自の条件でオープンソースのAIシステムを変更し、より高度な制御を可能にします。これらのシステムを特定のニーズやユースケースに合わせてカスタマイズし、自社のビジネス・データに基づいてオープンソースのAIモデルを微調整し、これらのモデルを特定のタスクに最適化することができます。

透明性

オープンソースAIのオープンな性質がAIの透明性を育みます。AIシステムがどのように構築され、トレーニングされ、どのように意思決定が行われたかを知ることは、特に医療、人事、司法など、AIの成果が生活に影響を与える可能性のある業界にとって、信頼と信頼を高めるのに役立ちます。

この透明性により、AI開発者はバグを正確に特定し、バイアスを特定し、セキュリティー上の欠陥を検知することが容易になります。さらに、オープンソースAIの内部処理を可視化することで、政府や金融などの規制遵守が最優先される分野の政策立案者による監査適合性を高めることができます。

オープンソースAIの課題

オープンソースAIには多くのメリットがありますが、限界もあります。オープンソースAIに関連する課題は次のとおりです。

●専用またはタイムリーなサポートの欠如

●誤用の可能性

●セキュリティーの脆弱性

専用またはタイムリーなサポートの欠如

独自のモデルとは異なり、オープンソースのAIモデルは、多くの場合、緊急の問題に対する対応時間や問題の解決を支援する専用のサポート・チーム、またはセキュリティー・パッチやアップデートのリリースにかかる一貫したスケジュールを設定していません。企業はそれを引き受け、AIアプリケーションを監視し、独自のサポート手順を作成する必要があります。

誤用の可能性

オープンソースAIは誰でも目的が何であっても使用できるため、悪意のある目的に使用される可能性があります。脅威アクターは、サイバー攻撃の自動化、ディープフェイクの生成、誤報や偽情報の拡散のためにオープンソースのAIを適用することができます。

セキュリティーの脆弱性

オープンソースのAIは透明性がありますが、その可視性により、攻撃者が悪用する可能性のあるセキュリティーの脆弱性が明らかになります。繰り返しになりますが、オープンソースAIソリューションの周りにガードレールを確立する責任は組織にあります。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

オープンソースのAIモデルの例

無数のオープンソースAIモデルが存在し、そのほとんどはHugging FaceまたはGitHubリポジトリーを通じてアクセスできます。ここでは、人気のあるものをいくつか紹介します。

    ● Amber

    ● Crystal

    ● DeepSeek-R1

    ● Falcon-7B and Falcon-40B

    ● Granite

    ● OLMo

    ● Pythia

    ● Qwen

    ● T5

Amber

Amberは、LLM360によって開発された70億のパラメーターの英語モデルであり、オープンソースの大規模モデル研究開発を通じてコミュニティー所有のAIを支援する取り組みです。AmberはMeta社のLlamaアーキテクチャーに基づいており、Apache 2.0ライセンスで利用できます。OSIによると、AmberはOSIのオープンソースのAIの定義に準拠しています。1

Crystal

CrystalはLLM360のもう一つの大規模言語モデルで、パラメーター・サイズは70億です。Apache 2.0ライセンスでリリースされており、コーディングと自然言語処理(NLP)のタスクのバランスを取ることに優れています。OSIによると、CrystalはOSIのオープンソースAIの定義に準拠しています。1

DeepSeek-R1

DeepSeek-R1は、中国のAIスタートアップDeepSeekによる推論モデルです。Mixture of Experts(MoE)機械学習アーキテクチャーを使用し、大規模な強化学習で訓練され、推論能力を洗練させました。MITライセンスで利用できます。

Falcon-7BとFalcon-40B

Falcon-7BFalcon-40Bは、それぞれ70億と400億のパラメーターを持つ因果デコーダーのみのモデルです。アラブ首長国連邦のテクノロジー・イノベーション・インスティテュート(TII)の研究者によって開発されたこの2つのモデルは、TIIが独自に開発したRefinedWeb、フィルタリングされた英語のウェブデータを含む巨大なデータ・セットで学習された。Falcon-7BおよびFalcon-40BはApache 2.0ライセンスで利用できます。

Granite

IBM® Graniteは、エンタープライズ向けのマルチモーダルAIモデルのシリーズです。同社は、社内でキュレートされた合成データ・セットと共に許可ライセンスを備えたオープンソースの命令データ・セットを基盤に構築されています。モデルはApache 2.0ライセンスで利用できます。

Granite®の基盤モデルは、エージェント型ワークフロー用に設計された推論機能を持つ小さな言語モデル、文書や画像の理解のためのビジョンタスクに特化したビジョンモデル、自動音声認識や翻訳のためのスピーチモデル、コード生成タスクのためのコードモデルで構成されています。

OLMo

OLMoは、非営利のAI研究機関であるAi2の言語モデル群です。モデルには、1、7、13、320億のパラメーター・サイズがあります。OLMoの成果を再現するモデル、トレーニング・コード、評価スイート、および事前トレーニング、中間トレーニング、トレーニング後を含む各フェーズで使用されるトレーニング・データは、すべてApache 2.0ライセンスの下で自由に利用できます。OSIによると、OLMoはOSIのオープンソースのAIの定義に準拠しています。1

Pythia

非営利の研究機関EleutherAIによって開発されたPythiaは、1400万から120億パラメーターの規模を持つLLM群で、Apache 2.0ライセンスのもとでリリースされています。AIの解釈可能性AIの倫理、透明性をさらに高めることを目的として、関連するデータ、コード、モデル、チェックポイントはすべて、トレーニングの再現手順とともに公開されています。OSIによると、PythiaはOSIのオープンソースのAI定義に準拠しています。1

Qwen

Qwenはクラウド・コンピューティング企業アリババクラウドのLLMシリーズです。Qwenには、言語モデル、ビジョン言語モデル、およびオーディオ、コーディング、数学用に最適化されたバリアントが含まれています。ほとんどのQwenモデルはApache 2.0ライセンスで利用できますが、より大型のモデルには独自のライセンスがあります。

T5

T5は、Googleの研究者によって開発されたテキスト間転送トランスフォーマー・モデルです。幅広いNLPタスクに優れており、Apache 2.0ライセンスの下でリリースされています。OSIによると、T5はOSIのオープンソースのAIの定義に準拠しています。1

OSIはまた、Meta社のLlama 2、Microsoft社のPhi-2、Mistral社のMixtral、xAI社のGrokといったモデルを検証した結果、これらのモデルはOSIのオープンソースAI定義に準拠していないと結論づけられました。その理由は「必要な構成要素が欠如していること、および/または法的契約がオープンソースの原則と相容れないため」です。1

オープンソースのAIツールとフレームワーク

オープンソースのAIプロジェクトに取り組むのは大変な作業です。ここでは、役立つ有名なオープンソースAIツールを紹介します。

    ● Keras

    ● OpenCV

    ● PyTorch

    ● Scikit-learn

    ● TensorFlow

Keras

Kerasは、ディープラーニング・モデルの構築、訓練、評価のためにPythonで書かれたアプリケーション・プログラミング・インターフェース(API)です。JAX、PyTorch、TensorFlowのフレームワークと互換性があり、その上で実行できます。

OpenCV

OpenCVは、Open Source Vision Foundationが運営するオープンソース・コンピューター・ビジョン・ライブラリーです。画像認識、画像分類、物体検知、物体追跡など、リアルタイム・ビジョン・アプリケーション用に最適化された2,500以上のアルゴリズムが搭載されています。

Pytorch

PyTorchは、もともとMeta社によって開発されたフレームワークで、現在はLinux Foundationの一部となっています。動的ニューラル・ネットワークGPUアクセラレーションをサポートし、Pythonのライブラリーやパッケージとシームレスに統合し、直感的なインターフェースを提供し、フレームワークのオーバーヘッドを最小限に抑えます。

Scikit-learn

Scikit-learnは機械学習用のPythonモジュールです。このモジュールは、分類クラスタリング回帰などのアルゴリズムを備え、データ処理、モデル選択・評価、可視化作成のためのツールも提供しています。

TensorFlow

TensorFlowは、機械学習モデルの構築と展開のためのプラットフォームです。Googleが作成したTensorFlowには、データ・セットとモデルのライブラリー、さまざまなプログラミング言語のAPI、および機械学習のワークフローを最適化するためのツールが含まれています。また、強力なオープンソース・コミュニティーもあり、書籍、厳選されたカリキュラム、オンライン・コースを通じて、人々が機械学習の専門知識を構築できるように支援しています。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiの詳細はこちら
人工知能ソリューション

IBMの業界をリードするAIの専門知識とソリューションのポートフォリオを活用して、AIをビジネスの業務に利用しましょう。

AIソリューションの詳細はこちら
人工知能(AI)コンサルティングおよびサービス

IBMコンサルティングAIサービスは、企業がAIをトランスフォーメーションに活用する方法を再考するのに役立ちます。

AIサービスの詳細はこちら
次のステップへ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモの予約
脚注

1 The Open-Source AI Definition 1.0, Open Source Initiative, Accessed 12 May 2025

2 Open sourcing the AI revolution, Economist Impact, 2024

3 Answers to frequently asked questions, Open Source Initiative, 29 October 2024

4 The Open Source AI Definition – 1.0, Open Source Initiative, Accessed 12 May 2025