text extraction

テキストを抽出して、高品質のビジネス文書をAIモデルで使用できるよりシンプルなファイル形式に変換したり、契約書などの文書から重要な情報を見つけて切り分けたりします。

テキスト抽出は、文書構造に基づいて文書から特定のエンティティや情報のカテゴリを抽出したいようなユースケースで威力を発揮します。

互換性と仕様

クラウド・プラットフォーム

サポートされる入力ファイルの種類

異なる言語の文書や、複数の言語が混在する文書からテキストを抽出することができます。 以下のファイルタイプからテキストを抽出します:

  • BMP
  • 文書
  • DOCX
  • GIF
  • HTML
  • ジェーエフアイエフ
  • JPG
  • マークダウン
  • PDF
  • PNG
  • PPT
  • PPTX
  • TIFF
  • XLSX
注記: XLSXドキュメントからキーと値のペアデータを抽出するために、テキスト抽出APIを使用することはできません。
対応出力ファイル形式

抽出したテキストは以下のファイル形式で保存できます:

  • JSON
  • マークダウン
  • HTML
  • TXT

各出力ファイル形式における抽出結果の内容については、「 出力形式の指定 」を参照。

サポートされるストレージ・タイプ

入力文書は、以下の接続ストレージタイプに保存できます:

  • IBM Cloud Object Storage

  • Amazon S3

  • Amazon S3 互換の汎用ストレージ

  • ボックス

  • IBM watsonx.data SharePoint

  • IBM FileNet P8

    注:IBM FileNet P8 接続はトロント・データセンターとマネージド (MCSP)のみで利用できる。

テ キ ス ト 抽出出力フ ァ イ ルは、 以下の接続 さ れた ス ト レージ タ イ プに格納で き ます:

  • IBM Cloud Object Storage

  • Amazon S3

  • Amazon S3 互換の汎用ストレージ

  • ボックス

    注:テキスト抽出APIは、一般的な Amazon S3 -互換性のある MinIO オブジェクトストレージで使用するために認定されています。

プロジェクト内の様々なタイプのデータストアへの接続の作成方法の詳細については、 watsonx.ai のコネクタを参照してください。

対応基盤モデル

テキスト抽出APIは、キーと値のペアの抽出と画像の言語化に mistral-small-3-1-24b-instruct-2503 モデルを使用することが認証されています。 また、視覚的な入力を処理し、JSON形式で応答できる次のようなモデルを使用することもできる:

  • llama-4-maverick-17b-128e-instruct-fp8
  • mistral-medium-2505

基盤モデル詳細については、 対応基盤モデル を参照。

制約事項

  • 特定の入力ファイルタイプからテキストを抽出し、抽出された出力を特定のファイルタイプに保存することができます。 すべての入力ファイルタイプは、サポートされているすべての出力形式に抽出することはできません。 以下の表は、どの入力ファイル形式がさまざまな出力形式と互換性があるかについての詳細です:

    テキスト抽出APIの入力ファイル形式と抽出出力形式の互換性
    入力ファイル・タイプ 対応出力ファイル形式
    プログラムPDF すべてのフォーマット
    スキャンしたPDF すべてのフォーマット
    画像 すべてのフォーマット
    Microsoft PowerPoint ファイル すべてのフォーマット
    マイクロソフト・ワードファイル すべてのフォーマット
    マークダウン すべてのフォーマット
    マイクロソフト・エクセルファイル マークダウン、JSON、プレーンテキスト
    HTML ファイル マークダウン、JSON、プレーンテキスト
  • 画像の言語化およびキーと値のペアの抽出は、英語の文書でのみサポートされています。

  • キーと値のペアを処理するテキスト抽出リクエストの結果は、 assembly 出力形式でのみ利用可能です。 HTML、Markdown、プレーンテキストの出力形式では、キーと値のペアは抽出されません。

働き方

watsonx.ai API で認証するには、認証情報を生成する必要があります。 詳細は「 ベアラートークンの生成」 を参照してください。

watsonx.ai プロジェクトに保存されている文書からテキストを抽出するには、以下のプログラムメソッドを使用します:

REST API

watsonx.ai REST APIのテキスト抽出メソッドを使用すると、 IBM watsonx.ai のファイルからプログラムでテキストを抽出できます。

テ キ ス ト 抽出要 求を カ ス タ マ イ ズす る 方法については、 テ キ ス ト 抽出パ ラ メ ー タ を参照 し て く だ さ い。

APIメソッドの詳細については、 watsonx.ai APIリファレンス・ドキュメントを参照のこと。

Python

IBM watsonx.ai プログラムでテキストを抽出するには、 Python ライブラリを使用します。

watsonx.ai Python ライブラリの TextExtractionsV2 クラスを参照。

サンプルノートブックをお試しください: watsonx.ai Text Extraction V2 サービスを使って、ファイルからテキストを抽出します。

Node.js

IBM watsonx.ai プログラムで Node.js SDK を使用して、ファイルからテキストを抽出することができます。 詳しくは、以下のリソースを参照してください。

さらに詳しく知りたい方は、 コード例をご覧ください。

詳細情報