ケアセット・ライブラリーのトレーニング方法ではR式を使用しており、従属変数（しばしばターゲットとも呼ばれる）はチルダ「~」の左側にあります。独立変数（しばしば主要な機能とも呼ばれる）は「~」の右側にあります。例えば：

height ~ age

このステップでは、年齢に基づいて身長を予測します。

ケア・トレーニングには、公式、トレーニング・データ、および使用する方法を渡します。Caretライブラリーにはさまざまなタイプのトレーニングのメソッドが用意されているため、メソッドを「gbm」として設定することで、勾配ブースティングの使用を指定します。次のパラメーターは、トレーニング・プロセスを構成します。「Recycledcv」メソッドでは、トレーニング・セットのデータ・ポイントのサブサンプルに対してX分割交差検証を行います。ここでは、交差検証ごとに異なるフォールドのセットを使用して、5分割交差検証を3回繰り返す指定を指定します。

model_gbm <- caret::train("species ~ .", data = train, method = "gbm", # gbm for gradient boosting machine trControl = trainControl(method = "repeatedcv", number = 5, repeats = 3, verboseIter = FALSE), verbose = 0)

これで、予測モデルを使用してテスト・データの予測を行うことができます。

pred_test = caret::confusionMatrix( data = predict(model_gbm, test), reference = test$species ) print(pred_test)

このステップでは次のように出力されます：

Confusion Matrix and Statistics Reference Prediction Adelie Chinstrap Gentoo Adelie 42 0 0 Chinstrap 0 20 0 Gentoo 1 0 35 Overall Statistics Accuracy : 0.9898 95% CI : (0.9445, 0.9997) No Information Rate : 0.4388 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.984 Mcnemar's Test P-Value : NA Statistics by Class: Class: Adelie Class: Chinstrap Class: Gentoo Sensitivity 0.9767 1.0000 1.0000 Specificity 1.0000 1.0000 0.9841 Pos Pred Value 1.0000 1.0000 0.9722 Neg Pred Value 0.9821 1.0000 1.0000 Prevalence 0.4388 0.2041 0.3571 Detection Rate 0.4286 0.2041 0.3571 Detection Prevalence 0.4286 0.2041 0.3673 Balanced Accuracy 0.9884 1.0000 0.9921

フォールドを使用したクロス検証の性質上、精度は同じですが、各クラスの感度と特異度はここで観察されるものとは若干異なる場合があります。トレーニング・データ・セットの20%を占めるChinstrapペンギンを使用しても、精度は非常に優れています。