Наша команда занимается претрейном YandexGPT — первым и самым ресурсоёмким этапом обучения больших языковых моделей (LLM). Мы подбираем данные, ставим эксперименты, выбираем методы обучения и обучаем сами модели. Наши разработки лежат в основе многих сервисов Яндекса, таких как Алиса, Нейро в Поиске, а также используются в Браузере, Маркете, Рекламе и Переводчике. Качество этих продуктов напрямую зависит от наших моделей. Одна из ключевых характеристик претрейн-моделей — их «умность». Это подразумевает знание всех фактов и концепций из текстов, а также умение обобщать информацию. Мы стремимся сделать YandexGPT самой умной моделью на рынке, чтобы продукты на основе нашей нейросети были лучшими.

Обязанности:

Сбор корпуса для обучения модели
Современные LLM требуют триллионов токенов. Сбор таких датасетов — нетривиальная задача: из триллионов документов в интернете необходимо выбрать и обработать те, которые принесут максимум пользы при обучении модели. Полное обновление корпуса для претрейн-модели позволило претрейну YandexGPT 5 Lite достигнуть паритета с мировыми SOTA по ряду ключевых бенчмарков для претрейн-моделей, а по многим другим — превзойти их. Подробнее про YandexGPT 5 можно почитать в статье на Хабре. Вы пройдёте весь путь сбора датасета для SOTA-моделей: от обучения классификаторов для нахождения полезных документов и поиска новых источников данных до обработки этих данных и проведения экспериментов. Будете выбирать датасет, влияющий на качество всех моделей в Яндексе, с помощью продвинутых методов на основе scaling laws. Создание основы для умных агентов
Агенты — это следующий шаг эволюции AI. Последние громкие релизы моделей, как коммерческих, так и open-source, отдельно фокусируются на создании систем, способных автономно оперировать в цифровой среде. Именно на этапе претрейна можно заложить способности, которые сделают будущих агентов на основе YandexGPT в разы сильнее. Вы определите, как именно это осуществить. Предстоит исследовать все: от построения агентской среды до определения оптимальной схемы обучения. Поиск новых направлений
Обучение LLM — это быстро развивающаяся область, где постоянно выходят новые исследования и релизы от конкурентов. Важно выделять из этого потока те результаты, которые с высокой вероятностью помогут в достижении наших целей. Вы будете не просто следить за трендами, а первым тестировать и внедрять самые перспективные идеи. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

Разбираетесь в том, как устроены LLM, и имеете опыт работы в NLP или других областях DL
Умеете находить в потоке выходящих статей и исследований те результаты, которые стоит попробовать
Можете генерировать новые идеи, которые приводят к улучшению результата
Готовы к высокому темпу работы, необходимому для конкуренции с ведущими игроками в мире AI

NLP-разработчик в команду претрейна YandexGPT

Описание вакансии