功能聚焦
快速构建原型并部署
使用共享计算资源池随时随地启动数据科学项目。缩短训练时间,产生更高质量的模型。通过对批处理、流式传输和交互式部署的 API 支持,横向扩展企业级训练和推理服务。
端到端信息架构
在支持流行框架的数据和 AI 服务中部署深度学习。在统一管理的环境中整合开源工具和第三方工具。
容器化基础架构管理
在 Red Hat® OpenShift® 中以本机方式运行机器学习和深度学习模型。在防火墙内部部署容器化模型,同时在本地保存数据并保持云可移植性。
高分辨率、大型模型支持
增加可用于深度学习模型的内存量,超出 GPU 占用范围。使用更大规模、更高分辨率的图像实施更复杂的模型。
多租户部署
在多租户架构中分配和共享根据模型需求调整的计算能力。在租户之间安全共享计算资源,实现最大限度地使用。
自动缩放、自动搜索和负载均衡
根据确保更高优先级作业快速运行的策略,启用资源的动态扩展或收缩。实现实时训练可视化和运行时模型监控。自动进行超参数搜索和优化以加快开发速度。
AI 生命周期管理
准备、构建、运行和管理机器学习和深度学习模型。利用更多数据运行训练周期,不断改进模型。
部署验证和优化
通过预先编译且经过验证的机器学习和深度学习模型,提高模型部署的可靠性和灾备能力。利用在目标系统上优化运行的软件加速提升性能。
具有模型监控功能的可解释 AI
管理和监控从小型到企业级部署的深度学习模型。监控模型公平性和可解释性,同时减少模型漂移和风险。
技术详细信息
软件需求
- Red Hat Openshift 4.5
- RHEL 7.7
- CUDA 深度神经网络 (cuDNN) 7.6.5 库
- NVIDIA CUDA 10.2
- NVIDIA GPU 驱动程序 440.33.01
- NVIDIA NCCL2 2.5.6
硬件需求
- 带有 NVIDIA Tesla T4、P100 或 V100 GPU 的 x86 64 位服务器