Обязанности:
Сбор корпуса для обучения моделиСовременные LLM требуют триллионов токенов. Сбор таких датасетов — нетривиальная задача: из триллионов документов в интернете необходимо выбрать и обработать те, которые принесут максимум пользы при обучении модели. Полное обновление корпуса для претрейн-модели позволило претрейну YandexGPT 5 Lite достигнуть паритета с мировыми SOTA по ряду ключевых бенчмарков для претрейн-моделей, а по многим другим — превзойти их. Подробнее про YandexGPT 5 можно почитать в статье на Хабре. Вы пройдёте весь путь сбора датасета для SOTA-моделей: от обучения классификаторов для нахождения полезных документов и поиска новых источников данных до обработки этих данных и проведения экспериментов. Будете выбирать датасет, влияющий на качество всех моделей в Яндексе, с помощью продвинутых методов на основе scaling laws. Создание основы для умных агентов
Агенты — это следующий шаг эволюции AI. Последние громкие релизы моделей, как коммерческих, так и open-source, отдельно фокусируются на создании систем, способных автономно оперировать в цифровой среде. Именно на этапе претрейна можно заложить способности, которые сделают будущих агентов на основе YandexGPT в разы сильнее. Вы определите, как именно это осуществить. Предстоит исследовать все: от построения агентской среды до определения оптимальной схемы обучения. Поиск новых направлений
Обучение LLM — это быстро развивающаяся область, где постоянно выходят новые исследования и релизы от конкурентов. Важно выделять из этого потока те результаты, которые с высокой вероятностью помогут в достижении наших целей. Вы будете не просто следить за трендами, а первым тестировать и внедрять самые перспективные идеи. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Разбираетесь в том, как устроены LLM, и имеете опыт работы в NLP или других областях DL
- Умеете находить в потоке выходящих статей и исследований те результаты, которые стоит попробовать
- Можете генерировать новые идеи, которые приводят к улучшению результата
- Готовы к высокому темпу работы, необходимому для конкуренции с ведущими игроками в мире AI
