Обязанности:
Поддерживать и развивать инфраструктуру наших сервисовВам предстоит автоматизировать текущие и формировать новые инфраструктурные подходы и практики, выстраивать observability сервисов и помогать продуктовым командам с их внедрением. Вы будете ретроспективно развивать инфраструктуру и поддерживать стабильность сервисов по мере роста количества пользователей, функциональности и нагрузки. Пример такой задачи — автоматизация развёртывания ML-моделей. Исследовать отказы и устранять их причины
Вы будете наблюдать за работой высоконагруженных сервисов и устранять неполадки. Пример такой задачи — анализ роста количества отказов или времени ответа сервиса YandexGPT. Разрабатывать новые сервисы по мере необходимости
Нужно будет заниматься разработкой — например, создать универсальный прокси-сервер для запуска внутренних сервисов в Yandex Cloud с минимальными усилиями.
Ключевые навыки:
- Разрабатывали и, главное, эксплуатировали высоконагруженные веб-сервисы (разработка — дело нехитрое, с этим мы и сами справляемся, пережить наплыв пользователей — вот задача)
- Знаете Go или Java, готовы писать и на том, и на другом
- Испытываете непреодолимое желание всё починить, измерить и усовершенствовать
Дополнительные требования:
- Работали с Terraform
- Применяли Envoy и разрабатывали плагины для него
- Развёртывали сервисы в Kubernetes
- Имеете сертификат Yandex Cloud Certified Engineer Associate или другие сертификаты от Yandex Cloud