La mayoría de las plataformas de inferencia no se crearon para modelos personalizados. La inferencia de contenedores dedicados sí lo es. Orquestación a nivel de trabajo, control de tráfico basado en políticas y optimización práctica del kernel. Los clientes vieron una inferencia de 1,4x–2,6 veces más rápida en la generación de vídeo en producción.