Команда ML делает продукты, которые упрощают использование машинного обучения и большие языковые модели даже людям, далёким от программирования. Наши сервисы для синтеза и распознавания речи помогают сотням бизнесов по всему миру, а инструменты дают возможность специалистам по data science обучать нейросетевые модели на десятках терабайт данных и сотнях GPU. Мы ищем людей, которые помогут развивать всё это, решать возникающие проблемы (куда ж без них), людей, для которых наши сервисы станут своими.

Обязанности:

Поддерживать и развивать инфраструктуру наших сервисов
Вам предстоит автоматизировать текущие и формировать новые инфраструктурные подходы и практики, выстраивать observability сервисов и помогать продуктовым командам с их внедрением. Вы будете ретроспективно развивать инфраструктуру и поддерживать стабильность сервисов по мере роста количества пользователей, функциональности и нагрузки. Пример такой задачи — автоматизация развёртывания ML-моделей. Исследовать отказы и устранять их причины
Вы будете наблюдать за работой высоконагруженных сервисов и устранять неполадки. Пример такой задачи — анализ роста количества отказов или времени ответа сервиса YandexGPT. Разрабатывать новые сервисы по мере необходимости
Нужно будет заниматься разработкой — например, создать универсальный прокси-сервер для запуска внутренних сервисов в Yandex Cloud с минимальными усилиями.

Ключевые навыки:

  • Разрабатывали и, главное, эксплуатировали высоконагруженные веб-сервисы (разработка — дело нехитрое, с этим мы и сами справляемся, пережить наплыв пользователей — вот задача)
  • Знаете Go или Java, готовы писать и на том, и на другом
  • Испытываете непреодолимое желание всё починить, измерить и усовершенствовать

Дополнительные требования:

  • Работали с Terraform
  • Применяли Envoy и разрабатывали плагины для него
  • Развёртывали сервисы в Kubernetes
  • Имеете сертификат Yandex Cloud Certified Engineer Associate или другие сертификаты от Yandex Cloud