Обязанности:
Проектирование и запуск проектов разметки данныхВы будете работать с заказчиками — командами Яндекса, которым нужны размеченные данные. Ваша цель — понять их потребности, декомпозировать задачу, спроектировать процесс сбора и разметки данных, запустить стабильное техническое решение. Это может быть как простая текстовая или картиночная разметка, так и сложные, многоэтапные сценарии разметки, проверки и валидации. Пайплайны сбора и обработки данных
Вы станете продумывать архитектуру хранения и обработки данных, создавать и совершенствовать дашборды и витрины данных, процессы их обработки. Разрабатывать и реализовывать новые алгоритмы обработки и агрегации данных, оценивать успешность этих алгоритмов. Автоматизировать процессы и улучшать метрики, применяя LLM и VLM. Искать проблемные зоны в процессах сбора данных. Анализ и контроль качества
Качество данных — ключевой показатель успеха. Вам предстоит определять метрики, строить дашборды, проводить эксперименты и анализировать результаты. Например, оценивать скорость разметки, точность исполнителей, влияние изменений в инструкциях и обучении на итоговый результат. Взаимодействие с командами, исполнителями и экспертами
Вы будете координировать работу с командами-заказчиками, смежными техническими группами и исполнителями заданий: управлять ожиданиями, согласовывать сроки, проводить встречи и собирать обратную связь. Кроме того, нужно активно развивать взаимодействие с экспертами в различных предметных областях, ведь для обучения моделей требуются самые разнообразные данные. Необходимо выстраивать продуктивный диалог с экспертами, анализировать обратную связь и инициировать совместные обсуждения, чтобы выявлять узкие места в процессе разметки и повышать её качество. Больше о создании продуктов в Яндексе — в канале Yandex for Products
Ключевые навыки:
- Программировали на Python, Java или Groovy
- Умеете писать аналитические скрипты и запросы на SQL
- Обрабатывали объёмные файлы (JSON, TSV, CSV)
- Легко переключаетесь между разными задачами
- Готовы работать в условиях меняющихся требований с быстро развивающимися сервисами
- Способны самостоятельно декомпозировать задачи и выстраивать системы решений
- Можете понятно объяснять результаты своей работы
- Взаимодействовали с заказчиками, способны управлять обсуждением и фиксировать результаты
- Проактивны и предлагаете различные варианты решения задач
Дополнительные требования:
- Понимаете принципы машинного обучения
- Знаете HTML, CSS и JavaScript
- Настраивали и запускали проекты в Яндекс Толоке или Яндекс Заданиях
- Применяли математическую статистику в работе
- Решали рабочие задачи с помощью LLM/VLM