Обязанности:
Развитие коробочного решения для инференсаСейчас у нас реализована core-часть сервиса, но, чтобы сделать решение по-настоящему удобным, предстоит реализовать множество таких идей и наработок, как динамическая балансировка, многоуровневый in-memory/disk/remote-кеш, динамические конфиги. Также вам нужно будет развивать инструменты для поднятия сервиса в облаке. Помощь с внедрением решения по всей компании
По всей компании не менее 20 команд, занимающихся эксплуатацией ML-моделей. Чтобы сделать решение удобным для всех и позволить быстро проводить эксперименты, необходимо постоянно взаимодействовать с нашими заказчиками и реализовывать необходимый для них функционал, например новые бэкенды для применения нейросетей, или оказывать консультацию по поднятию новых инсталляций. Сравнение с общемировыми аналогами
Для создания хорошего и конкурентного решения нам надо всегда смотреть по сторонам и перенимать лучшие практики и идеи. Для этого мы занимаемся качественным анализом аналогичных решений, как для кода инференса (Triton Inference Server, KServe), так и для поднятия сервиса в системах деплоя (Seldon Core, Kubeflow). А также нам необходимо следить за трендами инференса и заранее готовить инфраструктуру для новых размеров и типов моделей.
Ключевые навыки:
- Имеете опыт в программировании не менее двух лет
- Хорошо владеете C++ или готовы быстро разобраться
- Знаете про Concurrency на C++ или Linux
Дополнительные требования:
- Разрабатывали высоконагруженные сервисы на C++
- Разворачивали и эксплуатировали сервисы для ML Inference на CPU/GPU
- Слышали про Triton, TRT-LLM
- Знакомы с устройством нейронных моделей, в свободном режиме следите за новинками в области
- Знаете системы Unix/Linux (устройство процессов, файловой системы, системных вызовов и др.)
