トレーニング・データとは

トレーニング・データとは

トレーニング・データは、予測を行う方法、パターンを認識する方法、またはコンテンツを生成する方法を機械学習モデルに教えるために使用される情報です。アルゴリズムによって膨大な量のデータが処理されると、そのアルゴリズムは「トレーニング」済みで、多くのアプリケーションに使用できると見なされます。しかし、トレーニング・データがなければ、テストのために資料を学習しなかった優秀な学生のように、高度なアルゴリズムであっても役に立ちません。

すべての機械学習はデータセット、つまりデータの集合から始まります。データセットは、スプレッドシート、ビデオ映像、Web ページ、PDF、その他の種類のデータで構成できます。一般的に言えば、モデルに入力されるトレーニング・データが多いほど、モデルの性能は向上します。しかし、データの量だけでなく、データの質も非常に重要です。

AIトレーニング・データは、データを記述する特徴量(属性とも呼ばれます)で構成されています。たとえば、工場の設備に関するデータセットには、温度、振動速度、最終修理時間などが含まれます。このデータは機械学習に「送られ」、アウトプットを作成するためにインプットのデータを処理するコードを通じて表現される一連の命令になります。アルゴリズムにデータをフィードするとは、インプットデータをデータに与えることを意味し、データが処理および分析されてアウトプットが生成されます。トレーニングされた数学モデルは、このプロセスの成果です。これらのモデルは、人工知能における最近のほぼすべてのイノベーションの基礎となっています。

一部のモデルは自然言語処理(NLP) に使用され、機械に人間の言語で読み書きを教えるために使用できます。また、コンピューター・ビジョンにより、他のモデルが視覚情報を解釈できるようになります。しかし、すべてはトレーニング・データから始まります。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

トレーニングの種類

学習アルゴリズムの種類が異なれば、トレーニング・データに対するアプローチも異なります。教師あり学習では ラベル付きデータが使用され、 教師なし学習では ラベル付きデータが使用されます。半教師あり学習は両方を組み合わせます。

教師あり学習のトレーニングモデル

教師あり学習は、ラベル付けされたデータセットを使用してAI モデルをトレーニングし、データ ポイント全体の基礎パターンを識別する機械学習手法です。ラベル付きデータには、特徴量とラベル、そしてモデルがこの2つの間の関係を理解するために使用する、対応するアウトプットが含まれます。

多くの企業は、人間のデータ・アノテーターの大規模なチームを雇用しており、機械の支援を受けることもあります。これらのアノテーターは、データが適切にラベル付けされることを保証するために、しばしば固有の分野の専門知識を必要とします。たとえば、法的データにラベルを付ける場合、アノテーターに法律の知識が必要になる場合があります。人間のアノテーターを利用するプロセスは、「ヒューマン・イン・ザ・ループ」と呼ばれることもあります。

教師あり学習の古典的な例は、スパム検知です。モデルにスパムを識別するように教えるために、人間が「スパム」か「非スパム」かというラベルを付けた何千件ものEメールで構成されるデータセットをモデルに渡します。モデルはEメール内のパターンをレビューし、さまざまなパターンに気づきます。たとえば、件名に「無料」という言葉が含まれているEメールはスパムである可能性が高くなります。モデルは、件名内の「無料」という単語が「スパム」というラベルに対応する統計的尤度を計算します。その後、ラベルのない新しいEメールが与えられると、モデルはその計算を他の多くの計算とともに適用して、新しいEメールがスパムかどうかを判断できます。

このタイプの機械学習は、すべてのデータにラベルを付けるために人間の監督が必要なため、「教師あり」と呼ばれます。

教師なし学習のトレーニングモデル

教師なし学習モデルは単独で機能し、ラベルなしデータに固有の構造を発見します。教師あり学習はインプットをアウトプットにマッピングするのに役立ちますが、教師なし学習は、探すべきものに関するガイダンスなしに、データ自体内のパターン、構造、関係を見つけることに適しています。

たとえば、広告主が、カテゴリを事前に知ることなく、購買行動に基づいて顧客を明確なセグメントにグループ化しようとする場合を考えます。ラベルのないデータセットには、購入頻度、平均注文額、購入した製品の種類、直近の購入からの時間などの特徴量が含まれる場合がありますが、「顧客のタイプ」の列はありません。それが、モデルが理解しようとしていることです。クラスタリング・アルゴリズムは、次の3つのクラスターを識別するために使用できます。

  1. 高額で頻繁な購入者

  2. 時折ディスカウント・ショッピング客

  3. 新規顧客または一見顧客

モデルはパターンを学習し、トレーニング・データセットから直接これらのグループ化を行います。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

トレーニング・データの準備

データは私たちの周りに溢れています。世界の人口は、一日の毎秒ごとに膨大な量のデータを生成しています。しかし、未加工のデータは通常、モデルのトレーニングには役立ちません。品質の保証は非常に重要です。まず、複数ステップのデータ・パイプラインを通じて、データを前処理する必要があります。これはデータサイエンティストにとっては複雑なプロセスになる可能性があり、機械学習プロジェクトの範囲の大部分を占め、高度なデータサイエンスツールとインフラストラクチャが必要になります。データの品質が低いとノイズやバイアスが生じる可能性があるため、機械学習による正確な予測は困難ですが、高品質なトレーニング・データがあれば、オートメーションから翻訳、データ駆動型の意思決定まで、無数のユースケースでより信頼性の高い成果を生み出すことができます。

データ収集

まずデータを収集しなければなりません。自動運転車やスマート・ホームなどのAIシステムの場合、センサーやIoTデバイスを使用してデータ収集が行われる場合があります。官公庁・自治体、研究、企業は公開データセットを提供しています。広告主は、クリックストリーム、フォーム送信、およびユーザーからの行動データを使用します。

データのクリーニングとトランスフォーメーション

未加工データにはしばしば、欠損値、重複、その他のエラーが含まれます。データを収集したら、これらのエラーを修正するためにクリーニングする必要があります。これは、日付がMM/DD/YYYYYYのように表示されるようにするなど、形式の標準化と同程度に単純なものです。クリーニング後、データは多くの場合、アルゴリズムが処理しやすい形式に変換する必要があります。特徴量エンジニアリングでは、未加工データを前処理して、機械で読み取り可能な形式に変換します。適切な特徴量を変換し選択することによって、MLモデルの性能を最適化します。

データセットの分割

モデルが新しいデータに対してどの程度一般化されているかを評価するために、データセットは通常、3つのセットに分割されます。1つ目は、モデルのパラメーターを調整して予測とデータの間の最も良い一致を見つけるために使用されるトレーニング・セットです。これは「適合」と呼ばれるトレーニング・プロセスです。2 つ目は、ハイパーパラメータをファイン・チューニングし、過剰適合を防ぐために使用される検証データセットです。最後に、モデル性能の最終評価のために、テスト用データセットが使用されます。

データ・ラベリング

「人間によるアノテーション」とも呼ばれるデータ・ラベリングは、モデルがデータから学習できるように、未加工データに意味のあるラベルを追加するプロセスです。ラベルは、データの任意のプロパティを記述できます。たとえば、「この製品はひどい」というソーシャルメディアの投稿は、感情分析と呼ばれるプロセスで「否定的な感情」として分類される可能性があります。人間のアノテーターは、犬の写真に「犬」とラベルを付けることができます。銀行取引に「詐欺」とラベル付けすることもあります。

さらなるステップとして、データの構造化、拡張、バージョン管理が含まれる場合があります。一部のワークフローには、分析によって、より多くのデータやより適切なデータが必要な場所や、不要なデータを除外できる場所が明らかになるフィードバック・ループが含まれています。

学習データの傾向

データはモデル・アーキテクチャーと同じくらい重要であるため、データ・トレーニング・プロセスの最適化には多くの注意が注がれています。合成データはイノベーションの領域の一つです。組織は現在、巨大な実世界のデータセットをスクレイピングするのではなく、AI自体を使用して合成データを生成しています。

もう1つの傾向は、より小規模で高品質なデータセットです。大型のモデルは、より多くのデータを必要とするだけでなく、より優れたデータが必要です。データサイエンティストは、狭いユースケースに役立つ小規模なデータセットやタスク固有のデータセットを構築しています。たとえば、法律サービス分野で使用されるLLMは、法的コーパスのみを使用してトレーニングすると、より良い成果を得ることができます。

この記事で説明しているデータの前処理は、AIを活用して自動的に行うことができます。新しいアルゴリズムは、データセットのクリーニングをスクラブし、低品質のテキスト、重複したコンテンツ、無関係なボイラープレート資料を削除し、時間とコンピューティングを節約します。

これらは、急速に発展している分野におけるほんの一部のトレンドにすぎません。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約