Yandex Code Assistant — продукт на основе больших языковых моделей (LLM), который помогает повышать эффективность разработки. Вот что мы развиваем: * Агент-помощник в YQL — помогает писать запросы к таблицам и базам данных * Кодовый агент в VS Code — помогает писать код, объяснять его, искать по внутренней документации и многое другое * Code Completion — автодополнение кода на базе LLM * AI Code Review — проверяет изменения в пул-реквестах и оставляет комментарии об ошибках и возможных оптимизациях

Обязанности:

Рост качества агента в YQL (Yandex Query Language)
Каждый день тысячи аналитиков и разработчиков пишут запросы к данным: считают статистики, строят графики, делают DWH-пайплайны, грепают логи. Когда данных много и они сложно устроены, то написание запроса становится довольно непростой задачей. Агент встроен прямо в интерфейсы веб-сервисов YQL и YTsaurus, и топ-3 сценариев такие: почини ошибку в запросе («Fix with AI»), напиши или допиши запрос, вопросы о синтаксисе YQL/ClickHouse/YDB. Примеры задач и внедрений: * Для сценария «Fix with AI» документацию по ошибкам положили в отдельную векторную базу с текстовым эмбеддером — NDCG (top-1) по релевантности выросла с 0,49 до 0,91 * У одной из команд аналитиков собрано 400 примеров YQL-запросов для решения бизнес-задач — надо научить агента работать с этой базой, замерить качество, увидеть рост * В 7% запросов не вызывался ключевой тул валидации кода, было много жалоб пользователей — поменяли формат в промпте, проблема ушла * Улучшить качество генерации за счёт LoRA или RL — хотим увидеть рост качества на hard-задачах генерации Рост качества AI Code Review
При создании пул-реквеста запускается автоматическая проверка изменений, результат отображается в интерфейсе Арканума — внутренней системы для код-ревью. Наша цель — сэкономить время автора изменений и ревьюера. Найти баги, опечатки, явные ошибки логики и, если уверены, сразу предложить фикс, который можно принять одной кнопкой. Проект на ранней стадии — можно сильно повлиять на его трек развития. Примеры задач и внедрений: * Придумать и сделать контур замера качества Code Review, а затем его провалидировать — гарантированные ухудшения должны быть таковыми и по метрикам * Завести агента Code Review на нашем агентском бэкенде и настроить его: промпты, тулы, выбрать модель для инференса (одну или несколько) и в итоге превзойти legacу-решение по качеству (подсматривать в него можно и нужно) * Научить агента оптимально учитывать явный контекст пользователя в виде skills.md Развитие системы метрик и создание контуров замера
Метрики — наше всё! Если что-то не измеряется — то непонятно, как это развивать. Мы разрабатываем и используем офлайн-метрики для выбора лучших кандидатов на выкатку и A/B-тестирование, чтобы оценивать внедрение на рабочих задачах наших пользователей. Вас ждёт много аналитики и экспериментов. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Работали с ML-моделями (NLP, IR, RAG)
  • Умеете планировать эксперименты и знаете, как измерить их успех
  • Умеете писать продакшен-код на Python
  • Знакомы с MapReduce, обработка терабайтов логов вас не пугает