Теперь запускаем модель при помощи KServe на GPU
Совсем недавно мы писали статью про то, как запустить в кластере k8s сервис Kserve и продемонстрировали запуск в нём инференса модели Qwen3. Но запуск мы осуществляли на CPU и ждать ответа нам приходилось больше минуты.Теперь давайте немного дополним прошлую статью и покажем, как запускать инференс в Kserve при помощи GPU (в данном случае Nvidia). И […]