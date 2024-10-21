テストデータセットを読み取り、インプットとアウトプットを抽出しましょう。

prompts = list(data.input)

satisfaction = list(data.output)

prompts_batch = ["

".join([prompt]) for prompt in prompts]

また、サンプルのテスト入力と出力を印刷して、データセットのコンテンツを抽出した方法をより深く理解することもできます。

prompts[0]

アウトプット：

'Extract the satisfaction from the comment. Return simple 1 for satisfied customer or 0 for unsatisfied.

Comment: Long wait times.

Satisfaction:

'

この例では、プロンプトを取得し、その後、長い待ち時間に関する顧客のレビューを取得し、最後に満足度は否定的なレビューを意味する0となっています。

satisfaction[0]

アウトプット：

0

テストデータセットが用意できたので、チューニングされたモデルの精度とF1スコアをテストしてみましょう。F1スコアは、モデルの精度と再現率の平均です。そのためにはdeployment_idが必要です。ただし、APIのレート制限に達しないようにするために、concurrency_limitは2に設定されています。これは、同時に送信されるリクエストの数です。

deployment_id = deployment_details['metadata']['id']



tuned_model = ModelInference(

deployment_id=deployment_id,

api_client=client

)



tuned_model_results = tuned_model.generate_text(prompt=prompts_batch, concurrency_limit=2)

print(f'accuracy_score: {accuracy_score(satisfaction, [int(float(x)) for x in tuned_model_results])}, f1_score: {f1_score(satisfaction, [int(float(x)) for x in tuned_model_results])}')

アウトプット：

accuracy_score: 0.9827586206896551, f1_score: 0.9827586206896551

モデルの高い精度とF1スコアを考慮して、同じGraniteモデルのパフォーマンスをチューニングせずにテストしてみましょう。

base_model = ModelInference(

model_id="ibm/granite-3-8b-instruct",

api_client=client

)



base_model_results = base_model.generate_text(prompt=prompts_batch, concurrency_limit=2)



print(f'base model accuracy_score: {accuracy_score(satisfaction, [int(x) for x in base_model_results])}, base model f1_score: {f1_score(satisfaction, [int(x) for x in base_model_results])}')

アウトプット：

base model accuracy_score: 0.9310344827586207, base model f1_score: 0.9298245614035088

チューニングされたモデルでは、事前に調整された基盤モデルよりも優れたパフォーマンスを発揮します。チューニングされたモデルは満足度スコアの抽出に特化しているため、他の満足度抽出タスクにも使用できます。お疲れさまでした。