В Яндексе мы используем множество современных LLM-решений, чтобы ускорить разработку. Речь не о прямой генерации кода, а об инструментах — например, о продвинутом поиске с учётом контекста конкретной команды разработки. Один из таких инструментов — RAG (Retrieval Augmented Generation), куда загружены стандарты разработки конкретного бизнес-юнита. Также у нас есть сложные агентские сценарии: нужно не только изучить внутреннюю документацию, но и найти ответственную команду, дашборды сервиса, оценить RPS и динамику за последние годы. Мы ищем опытного специалиста, который будет развивать нашу общую агентскую платформу. Она сочетает в себе обычный highload-рантайм и долгоживущие запросы. Работать с такой комбинацией непросто: нужно, чтобы система хорошо справлялась с рестартами приложений при релизах, не замедляла шедулинг задач и обеспечивала высокий аптайм сервиса (99,99%).

Обязанности:

Доработка сетевой части платформы
На долгоживущих запросах возникают странные спецэффекты. Вы будете учиться делать реконнекты и ретраи, максимально сохраняя дорогое время работы видеокарт. Инструментарий для дебага
Код редко работает с первого раза, а если для выявления бага нужно несколько часов, задача становится ещё сложнее. Вам нужно обеспечить возможность воспроизводить запросы, в том числе для дообучения моделей. Разработка RAG-платформы
Вы будете разрабатывать общую RAG-платформу, которая сможет отвечать на базовые поисковые запросы и предоставлять коробочные решения: индексацию wiki-кластера, работу штатного MCP-сервера, метрики качества ответов, а также возможность переиндексации на другие эмбеды без полной перезаливки данных. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

Хорошо знаете C++
Разрабатывали высоконагруженные приложения
Разрабатывали сетевые приложения

Дополнительные требования:

Имели опыт разработки многопоточных приложений
Работали с gRPC
Знаете сетевой стек Linux

Разработчик в группу инфраструктуры AI-агентов

Описание вакансии