Мы находимся в поисках технического лидера команды для работы по:
обеспечению технического лидерства в проекте MetaX для превращения экспериментального GPU-стека в промышленный корпоративный продукт с управляемыми процессами разработки, поставки, обновления, мониторинга, отката и масштабирования, готовый к пилотам и дальнейшему тиражированию.
Вместе с нами тебе предстоит:
- Формировать целевую архитектуру MetaX Stack: драйверы, runtime, Kubernetes-интеграция, observability, поставка и эксплуатационные контуры.
- Принимать ключевые технические решения по ОС, артефактам, golden image, офлайн-поставке и T1 Cloud distribution.
- Определять технические границы релизов.
- Обеспечивать совместимость архитектуры с требованиями закрытого банковского контура и тиражируемостью на площадки заказчиков.
- Выявлять и приоритизировать риски по драйверам, среде исполнения, интеграции с Kubernetes, регрессиям производительности и совместимости компонентов.
- Организовывать технические разборы критических проблем и вырабатывает решения по их устранению.
- Эскалировать сложные дефекты и аномалии к вендору и контролирует сроки и качество обратной связи.
- Принимать решения о допустимости изменений с учётом влияния на надёжность, сроки и качество релиза.
- Декомпозировать дорожную карту проекта на квартальные цели, перечень задач и критический путь исполнения.
- Расставлять приоритеты между задачами DevOps, SRE, QA, низкоуровневой разработки, ML-направления и системного анализа.
- Удерживать баланс между ускорением вывода продукта на рынок и сохранением обязательных критериев качества релиза.
- Контролировать достижение ключевых результатов: стенд, Alpha-сборка, базовые замеры, Beta, пилоты, эксплуатационные инструкции и промышленный релиз.
- Формировать необходимую команду для выполнения бэклога в обозначенные сроки, проводит технические интервью. Осуществлять оперативное и стратегическое управление сотрудниками для достижения поставленных задач.
- Подтверждать техническую готовность продукта к пилотам, тиражированию и промышленной эксплуатации
- Высшее техническое образование(ИТ, программная инженерия, вычислительные системы, системная архитектура, прикладная математика).
- Опыт от 5 лет в инфраструктурной разработке, платформенной инженерии, системной архитектуре, DevOps/SRE/MLOps или близких ролях.
- Желателен опыт технического лидерства или функционального руководства не менее 2 лет.
- Желательно дополнительное обучение по системной архитектуре, DevOps/SRE, Kubernetes, управлению релизами, управлению производительностью и GPU/ML-инфраструктуре.
- Знания Linux, контейнеризации, Kubernetes, CI/CD, средств наблюдаемости, релизного процесса, эксплуатации критичных систем, архитектуры GPU-стека и управления техническими рисками.
- Желательно понимание требований по ИБ и работе с данными при внедрении решений .
- Git, GitLab/Jenkins, Ansible, Docker/CRI-O, Kubernetes, Prometheus/Grafana, ELK/Loki, Jira/Confluence, Python, Bash и средства анализа производительности.
