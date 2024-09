Triton Inference Server 是 Nvidia 开发的开源模型服务器,支持 CPU 和 GPU 设备上的模型推理。它广泛应用于各种平台和架构,包括 s390x (Linux on Z)。具体来说,在 Linux on Z 上,Triton 可以利用 AI 框架来同时使用 SIMD 架构和 IBM Integrated Accelerator for AI,从而优化性能。