Konwersja modelu TensorRT

Można włączyć lub wyłączyć konwersję modelu NVIDIA TensorRT i skonfigurować precyzję, według której przekształcane są różne typy modeli.

Konfigurowanie konwersji modelu TensorRT

Skonfiguruj konwersję modelu TensorRT przy użyciu niestandardowego odwzorowania ConfigMap custom-dle-config.

Korzystając z ConfigMap custom-dle-config, można wykonać następujące konfiguracje konwersji:

  • Włączanie lub wyłączanie konwersji TensorRT
  • Skonfiguruj precyzję, przy której przekształcane są różne typy modeli.
Uwaga: Zmiany dokonane w programie custom-dle-config configmap mogą potrwać kilka minut, aby przeprowadzić propagację do pods wdrażania, które już działają. Poczekaj kilka minut przed wdrożeniem większej liczby modeli, na które wpływa odpowiednia zmiana, aby upewnić się, że zmiana została zastosowana do nowo wdrożonego modelu.

Parametry umożliwiające przekształcenie modelu TensorRT

Poniższa tabela zawiera szczegóły dotyczące parametrów sterujących, czy konwersja modelu TensorRT jest włączona dla różnych typów modeli.

Tabela 1. Parametry umożliwiające konwersję modelu TensorRT
Parametr TRUE/FALSE Wyłącz konwersję modelu TensorRT
disable.tensorrt TRUE Wszystkie typy modeli. Wartość tego parametru przesłania wszystkie ustawienia specyficzne dla modelu.
disable.tensorrt.googlenet TRUE Tylko modele GoogleNet .
disable.tensorrt.ssd TRUE Tylko modele SSD.
disable.tensorrt.yolov3 TRUE Tylko modele YOLOv3 .
disable.tensorrt.tiny.yolov3 TRUE Tylko małe modele YOLOv3 .

Precyzja konwersji modelu TensorRT

Modele przekonwertowane do 16-bitowej zredukowanej precyzji działają wydajniej i zabierają mniej pamięci GPU niż modele, które utrzymują 32-bit precyzji. Model przekształcony w dokładność o zredukowanej precyzji 16-bitowej może prowadzić do małej utraty dokładności.

W poniższej tabeli szczegółowo przedstawione są wartości konwersji modelu TensorRT .

Wartości konwersji modelu TensorRT

Tabela 2. Wartości konwersji modelu TensorRT
Wartość Opis
fp16

Modele są przekształcane w 16-bitowy zmienny punkt, zmniejszoną precyzję.

pf32 Modele obsługują 32-bitową precyzję zmiennopozycyjną.

Parametry dla precyzji modelu TensorRT

Poniższa tabela zawiera szczegółowe informacje na temat parametrów określających precyzję modelu TensorRT , która jest używana podczas konwersji modelu TensorRT .

Uwaga: Zmiany nie mają modeli wpływu, które zostały już wdrożone. Aby zmienić konfigurację modelu, który jest już wdrożony, wprowadź zmiany, ponownie wdróż model, a następnie zrestartuj produkt Maximo® Visual Inspection Edge.
Tabela 3. Parametry dla konwersji modelu TensorRT
Parametr Typ modelu ustawiony dla precyzji modelu TensorRT
tensorrt.precision.googlenet fp16/fp32 GoogLeNet
tensorrt.precision.ssd fp16/fp32 SSD
tensorrt.precision.yolov3 fp16/fp32 YOLOv3
tensorrt.precision.tiny.yolov3 fp16/fp32 Mały YOLOv3