信頼できるAI：言語モデリングにおけるオープンネスの事例

2 年前の ChatGPT のリリースは、前例のない規模と複雑さの大規模言語モデルによって推進される AI の新しい章を開きました。これらのモデルは現在、研究とビジネスにおいて主導的な力となっていますが、その多くはデータ、完全な取引レシピ、チェックポイントを公開していません。そこで登場したのが、非営利団体Allen Institute for Artificial Intelligence（Ai2）です。Ai2は、Microsoft社の共同創設者であるPaul Allen氏によって2014年に設立されました。研究グループの作業対象は、オープンソースの言語モデル、マルチモーダルモデル、評価フレームワークです。

最近、Ai2は、オープン・システムと独自のシステム間のギャップを埋めることを目的とした最先端のマルチモーダルAIモデル・ファミリーであるMolmoをリリースしました。「当社の小規模なモデルでさえ、競合他社の 10 倍のパフォーマンスを上回っています」とAi2は言います。

9 月初め、Ai2 は Contextual AI と共同で開発された、10 億のアクティブパラメータと 70 億の合計パラメータを持つ混合エキスパートモデルであるOlmoE をリリースしました。5兆のトークンでトレーニングされ、Ai2のDolmaからの教訓を組み込んだ新しいデータミックスに基づいて構築されました。

サンフランシスコで開催されたPyTorch 会議での基調講演の後で、Ai2のNLP 研究担当シニア・ディレクターであるHanna Hajishirzi氏と、オープンソース・モデルとAIリテラシーについて話し合いました。

OlmoEは数週間前にリリースされました。リリースから現在までに何が起こりましたか?

9月にOLMoEのマイナーリリースを行いました。小さなモデルにもかかわらず、多くのタスクで非常に優れたパフォーマンスを発揮します。それ以来、コミュニティーからは大きな歓迎を受けています。また、GPUに接続せずにスマートフォン上で言語モデルを直接実行するアプリも作成しました。まだ進行中であり、安全機能とUIの改善に取り組んでいますが、ワクワクしています。また、より大きなモデルのトレーニングにも取り組んでいます。

これをどのようにして達成しましたか？

混合エキスパート・モデルがすでにフロンティア・モデルに含まれているのを見ているので、混合エキスパート・モデルがうまく機能することは驚くには当たりません。混合エキスパートのメリットは、同じトレーニング作業で、高密度のモデルよりも高い精度が得られることです。私たちにとって興味深かったのは、これを極端に採用し、10億パラメータ・モデルのような、可能な限り最小のモデルをトレーニングして、何が起こるかでした。私たちはその結果に興奮しました。

それで、何が起こったのでしょうか？まず、トレーニング・パイプラインの改善です。私たちは高密度のモデル・アーキテクチャーから始めて、いくつかの実験を行いエキスパートモデルの混合に拡張することに成功しました。次に、データの組み合わせを改善し、より優れたモデルを実現しました。これら2つを組み合わせることで、最良の成果が得られました。

大規模なモデルにおけるオープン性の限界について話していただけますか？

AIコミュニティの公開性さはさまざまです。たとえば、OpenAI の ChatGPT のようなモデルは API を公開していますが、閉ざされたドアの背後で何が起こっているかを誰が知っていますか?

すべてが想像の世界ですが、この透明性の欠如はAIリテラシーを促進することの逆です。これらのモデルがなぜそのように動作するのかについて、一般には理解されていません。これらのモデルはより良くなるように見え、すべてが魔法のように感じられます。

AIコミュニティは、不透明なモデルについてさらに多くの情報をリリースし、なぜその答えを出すのかを説明する必要があります。たとえば、トレーニングデータの特定のパターンに遭遇したため、モデルが特定の方法で応答すると説明できます。

これについてユーザーを教育することは不可欠です。一般に理解しやすい方法で特定の意思決定をデータ・ポイントに結び付けることは困難ですが、このプロセスを示すデモを作成することは非常に効果的です。

トレーニングデータにはしばしば謎が含まれていますよね？

そのとおりです。それは私たちのプロジェクトの重要な焦点です。私たちはモデルの重みとトレーニング・データの両方をリリースすることを目指しています。

コミュニティの研究者は、当社のOLMoおよびOLMoEモデルを使用して、モデルの意思決定がデータにどのようにつながるかについて取り組んでいます。私たちのオープン・データ・セットであるDolmaによって、研究者がそれを分析できるようになり、特定のデータ・ポイントがモデルの動作にどのように貢献するかを説明する出版物ができました。この透明性は、一般の人々にも情報を提供するのに役立ちます。

これまでは一般的知識について話してきましたが、信頼についてもお話ししたいと思います。言語モデリングの分野で信頼を構築するにはどうすればよいでしょうか？

2つの観点からこれに対処することができます。まず、このプロジェクトを開始するにあたり、一部の企業から報告された数値の妥当性について疑問を投げかけました。私たちは、これらの数値が選択的なテスト・セットやベンチマークから導き出されていないことを確認したいと考えていました。これで、研究コミュニティ内の信頼のレベルが浮き彫りになります。

私たちのモデルの場合は、データへのアクセスを提供し、モデルがどのように評価されるかを示すので、それは簡単です。この透明性により、データの中に何があるか、モデルがどのようにトレーニングされたかが明確になります。また、トレーニングの中間段階であるさまざまなチェックポイントもリリースしています。研究者は、これらのチェックポイントを使用して、時間の経過とともに知識と改善がどのように進化していくかを観察できます。そして一部の研究者はすでに私たちのチェックポイントを活用して、この進化を研究しています。

最後に、一般の信頼という観点からも、同様のアプローチが適用されます。多くの人は、言語モデルが単にハルシネーションを起こすと考えています。私たちはそのアウトプットを学習データに接続し、意思決定プロセスを説明することで信頼性を高めることができます。まだ完璧ではありませんが、トレーニング・データの透明性を向上させることは、社会の信頼を築く大きな機会を提供します。

現在、オープンソースAIには大きな関心が寄せられています。このトレンドについてどう思いますか？

オープンソースのAIは、言語モデルの技術を可能にし加速させるために不可欠です。オープンな科学的研究により、言語モデルの研究と開発は大きく進歩しました。オープンソースAIの活発な維持に向けた努力を次に進める必要があります。

適切なAI基盤モデルの選択方法

信頼できるAI: 言語モデリングにおけるオープン性の理由